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为 什么 要 写 这 本 书 
《论语 ， 卫 灵 公 》 有 言 : “ 工 欲 善 其 事 ， 必 先 利 其 器 。” 
在 Linux 运 维 领域 中 ， 什 么 是 广大 系统 管理 员 们 的 “利器 ” 呢 ? 在 我 看 来 ， 系 统管 理 员 的 “利器 ”有 3 个 ， 一 个 是 方法 论 ， 一 个 是 经 验 ， 最 后 一 个 是 积极 饱满 的 学 习 精 神 。 


我 们 面 对 的 是 一 个 不 断 变化 的 世界 ， 业 务 需求 在 变 ， 技 术 架 构 在 变 ， 开 源 工具 与 商业 系统 异 构 部 署 ， 新 工具 和 技术 概念 层出不穷 ， 唯 有 一 套 科 学 的 技术 方法 论 才 能 应 对 这 些 变化 。 很 多 时 候 ， 我 们 在 面 
对 新 的 问题 时 ， 会 束 手 无 措 ， 这 恰恰 也 是 方法 论 缺 失 导 致 的 结果 。 从 事 运 维 工作 10 余 年 ， 我 逐渐 体会 到 在 运 维 领 域 中 总 结 一 套 问 题 排除 方法 论 是 一 件 至 关 重 要 和 有 意义 的 事情 。 在 我 的 工作 中 ， 经 常 听 到 有 
工程 师 问 : “网 站 访问 不 了 了 ， 是 什么 问题 ? ”此 时 ， 我 会 把 我 的 故障 定位 方法 告诉 他 ， 依 次 实施 这 些 方法 ， 基 本 都 能 够 有 效 定 位 并 及 时 解决 问题 。 我 想 ， 若 能 把 这 些 方法 论 分 享 给 初 入 这 个 行业 的 人 或 者 
在 这 个 领域 中 工作 了 多 年 但 仍 未 打通 “ 任 督 二 脉 ”的 人 ， 将 会 是 一 件 极 有 意义 的 事 。 


经 验 是 另 一 个 有 意思 的 话题 。 很 多 时 候 ， 我 们 对 一 个 问题 的 判断 ， 是 基于 以 前 的 思考 和 处 理 方法 的 。 有 时 候 经 验 并 不 完全 正确 ,但 对 经 验 的 总 结 和 归纳 ， 却 可 以 给 我 们 提供 新 的 思考 方向 ， 因 为 从 经 验 


中 获取 的 知识 和 技能 在 未 来 也 是 通用 的 。 自 2006 年 毕业 后 ， 我 一 直 从 事 与 运 维 相关 的 工作 。 在 我 最 开始 从 事 的 局 域 网 内 网 管理 工作 中 ， 看 到 了 使 用 ARP 欺 骗 竞 然 可 以 让 一 台 计 算 机 失去 网 络 连 楼 ; 看 到 了 
Andrew.S.Tanenbaum 先 生 所 著 的 《Computer Networks》 中 所 讲 的 每 个 知识 都 活 了 起 来 。 到 后 来 ， 我 加 入 了 一 家 创业 型 的 公司 ， 全 面 负责 公司 的 网 站 和 业务 运 维 ， 从 每 天 上 千 次 网 站 访问 量 到 日 PV 超过 千 万 ， 
我 经 历 了 高 性 能 网 站 构建 、 监 控 、 安 全 和 运 维 自动 化 等 各 个 方面 的 实践 ， 使 得 自己 在 各 个 层面 都 有 了 丰富 的 经 验 积累 。 再 后 来 ， 进 入 盛大 游戏 ， 我 接触 到 了 大 型 端 游 的 上 线 运 维 、 现 象 级 手 游 的 发 布 运 维 ， 
使 自己 又 对 游戏 运 维 体系 有 了 很 多 积累 和 总 结 。 我 想 把 这 些 经 验 都 积累 下 来 ， 分 享 给 大 家 ， 让 大 家 在 考虑 架构 和 运 维 体系 时 ， 既 能 注意 宏观 的 层面 ， 也 能 把 握 技术 细节 。 通 过 学 习 书 中 每 一 个 技术 和 体系 的 
最 佳 实践 ， 所 有 工程 师 都 能 得 到 提升 。 通 过 我 的 分 享 ， 我 曾 踩 过 的 那些 “ 坑 ” 在 大 家 前 进 的 路 上 将 被 填 平 ， 并 成 为 大 家 前 进 的 基础 。 本 书 中 总 结 的 每 一 个 最 佳 实践 ， 都 将 是 对 系统 稳定 性 和 性 能 的 一 个 优 
化 。 


积极 饱满 的 学 习 精 神 是 系统 管理 员 必 备 的 特质 ， 这 也 决定 了 大 家 的 职业 之 路 能 走 多 远 。 有 了 方法 论 和 经 验 ， 可 以 让 一 个 人 在 某 个 时 间 段 成 为 某 个 领域 的 专家 ， 但 是 只 有 不 断 学 习 ， 才 能 保持 在 这 个 领域 
的 优势 。 就 像 驾驶 一 辆 汽车 在 高 速 上 疾驰 ， 也 许 开始 时 一 路 领先 ， 但 如 果 没 有 持续 加 油 提供 动力 ， 还 是 会 被 后 面 的 车 辆 不 断 超越 。 在 运 维 工 作 中 ， 不 断 学 习 就 是 不 断 给 自己 的 职业 能 力 加 油 。 在 面 对 新 概 
念 、 新 技术 时 ， 仅 考虑 如 何 使 用 它 是 不 够 的 ， 更 多 的 是 思考 这 些 技术 的 底层 原理 、 实 现 方法 、 技 术 前 景 预 估 和 判断 ， 这 样 才 能 成 为 不 断 引 领 这 个 领域 进步 的 人 。 
读者 对 象 

本 书 适合 以 下 几 类 读者 阅读 : 

- 中 高 级 运 维 工程 师 ; 

“ Linux 运 维 爱 好 者 ; 

“ 计算 机 相关 专业 的 学 生 。 
如 何 阅读 本 书 

本 书 分 为 4 大 部 分 ， 具 体 介 绍 如 下 。 

第 一 部 分 ， 高 性 能 网 站 构建 。 这 部 分 对 构建 高 性 能 网 站 所 需要 的 各 项 技术 都 做 了 详尽 说 明 ， 涵 盖 域 名 、CDN、 负 载 均衡 、 网 站 部 署 和 数据 库 的 相关 知识 和 最 佳 技术 实践 。 


第 二 部 分 ， 服 务 器 安全 和 监控 。 业 务 架 构 起 来 后 ， 如 何 保 证 它 的 安全 性 和 稳定 性 ， 是 大 家 需要 关注 的 焦点 。 这 部 分 解决 两 个 问题 : 一 个 是 加 固 服务 器 ， 使 其 避免 轻易 成 为 黑客 的 “肉鸡 ”; 一 个 是 监 
控 ， 使 故障 在 发 展 成 为 重大 事故 前 就 被 预警 和 处 理 。 


三 部 分 ， 网 络 分 析 技 术 。 这 部 分 给 出 Linux 运 维 领域 中 的 网 络 分 析 方法 论 。 通 过 对 这 部 分 的 学 习 ， 大 家 将 在 遇 到 未 知 的 运 维 网 络 服务 问题 时 ， 能 够 自信 地 按 方法 论 实施 分 析 ， 从 而 解决 问题 。 
第 四 部 分 ， 运 维 自动 化 和 游戏 运 维 。 随 着 服务 器 规模 的 剧 增 ， 使 用 一 台 台 登录 服务 器 进行 管理 、 运 维 的 方式 将 成 为 效率 的 瓶颈 。 这 部 分 给 出 运 维 自动 化 实践 方案 ， 从 开源 实现 到 自主 开发 ， 互 相 补 充 


互相 提升 ， 真正 实现 适合 自己 的 运 维 自动 化 体系 。 游 戏 运 维 ， 将 对 端 游 和 手 游 这 两 大 目前 最 火 的 游戏 运 维 主题 进行 说 明 。 


勘误 和 支持 


虽然 我 试图 努力 保证 本 书 不 出 现 错误 ， 但 限于 自己 的 知识 和 视角 ， 本 书 难免 会 出 现 用 词 不 当 、 部 分 场景 下 技术 不 适用 的 问题 。 在 此 ， 我 恳请 读者 不 吝 指 教 。 您 若 发 现 本 书 存在 不 足 之 处 ， 请 发 送 邮 件 到 
xufengnju@163.com 或 者 加 入 QQ 和 群 434242482 (Linux 运 维 最 佳 实践 ) 帮助 我 修正 本 书 。 另 外 ， 您 还 可 以 通过 以 上 两 种 方式 获得 技术 支持 。 本 书 的 勘误 将 列 在 http://xufenginfoyVerratahtml 中 。 
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第 1 篇 “高 性 能 网 站 构建 


- 第 1 章 ， 深 入 理解 DNS 原理 与 部 署 BIND 


“ 第 2 章 “全面 解析 CDN 技 术 与 实战 


“第 3 章 ”负载 均衡 和 高 可 用 技术 

“ 第 4 章 ”配置 及 调 优 LVS 

“第 5 章 ”使 用 HAProxy 实 现 4 层 和 7 层 代 理 

“ 第 6 章 ”实践 Nginx 的 反 向 代理 和 负载 均衡 
RTE ”部署 商业 负载 均衡 设备 NetScaler 

“ 第 8 章 ”配置 高 性 能 网 站 


: 第 9 章 ”优化 MySQL 数 据 库 


第 1 章 深入 理解 DNS 原 理 与 部 团 BIND 


DNS (Domain Name System， 域 名 系统 ) 是 互联 网 上 最 核心 的 带 层 级 的 分 布 式 系统 ， 它 负责 把 域名 转换 到 IP 地 址 、 反 查 从 IP 到 域名 的 解析 以 及 宣告 邮件 路 由 等 信息 ， 使 得 基于 域名 提供 服务 成 为 可 能 ， 例 
如 网 站 访问 、 邮 件 服务 等 。 


人 们 无 时 无 刻 不 在 使 用 DNS 提供 的 服务 ， 但 大 多 数 人 对 它 的 工作 原理 知之 甚 少 。 在 这 样 的 情况 下 ， 在 出 现 与 DNS 相关 的 问题 或 者 故障 时 ， 人 们 会 无 所 适 从 ， 无 法 迅速 找到 问题 根源 进而 排除 故障 。 本 章 
将 对 DNS 的 核心 概念 进行 深度 探索 ， 从 而 深入 理解 DNS 的 工作 原理 。 


BIND (Berkeley Internet Name Domain， 伯 克利 互联 网 名 称 域 ) 是 Linux、UNIX 系 统 上 部 署 最 广泛 的 域名 服务 器 ， 是 域名 解析 协议 的 事实 标准 。 可 以 通过 BIND 构 建 各 种 满足 不 同业 务 需求 的 DNS。 本 章 将 
讲解 使 用 BIND 构 建 DNS 的 最 佳 实践 。 


最 佳 实践 1: 禁用 权威 域名 服务 器 递归 查询 


我 们 经 常 听 说 DNS 的 “递归 查询 ”和 “迭代 查询 ”， 那 么 到 底 什 么 是 “递归 查询 ”， 什 么 是 “迭代 查询 ” 呢 ? 


我 们 并 不 直接 回答 这 个 复杂 的 问题 ， 而 是 先 从 DNS 相 关 的 重要 概念 开始 学 习 。 只 有 理解 了 这 些 概念 ， 才 能 真正 回答 这 个 问题 。 


DNS 的 组 成 部 分 
DNS 的 组 成 概括 来 讲 包括 以 下 两 个 部 分 。 
: 域名 服务 器 (Name Server) 。 提 供 域名 解析 服务 的 软件 ， 一 般 监 听 UDP、TCP 的 53 端 口 。 例 如 Linux 系 统 中 常见 的 BIND、Windows Server 中 集成 的 DNS 服务 器 组 件 等 。 


“ 解析 器 (Resolver) 。 访 问 域名 服务 器 的 客户 端 ， 它 负责 解析 从 域名 服务 器 获取 的 响应 ， 向 调用 它 的 应 用 返回 IP 地 址 或 者 别名 等 信息 ， 例 如 Linux 系 统 中 的 gethostbyname () 函数 、Windows 系 统 中 的 
nslookup 等 。 


域名 服务 器 的 分 类 


域名 服务 器 根据 用 途 不 同 ， 可 以 进行 如 下 分 类 。 


1. 权 威 域名 服务 器 (Authoritative Name Server) 


负责 授权 域 下 的 域名 解析 服务 ， 由 上 级 权威 域名 服务 器 使 用 NS 记录 进行 授权 。 


有 以 下 3 级 权威 域名 服务 器 。 


(1) 根 域名 服务 器 (Root Name Server) 


最 上 层 权威 域名 服务 器 ， 负 责 对 .com、.cn、.org 等 顶级 域名 的 向 下 授权 。 目 前 有 13 组 这 样 的 服务 器 ， 详 见 表 1-1。 


表 1-1 根 域名 服务 器 分 布 情况 表 


CINE EE 


a.root-servers.net 198.41.0.4 VeriSign. Inc. 


b.root-servers.net 192.228.79 University of Southern California (ISI) 


c.root-servers.net Cogent Communications 
d.root-servers.net University of Maryland 
e.root-servers.net NASA (Ames Research Center) 
É.root-servers.net Internet Systems Consortium, Inc. 
g.root-servers.net US Department of Defense (NIC) 
h.root-servers.net US Army (Research Lab) 
i.roOt-servers.net Netnod 

j.root-servers.net VeriSign. Inc. 

k.root-servers.net RIPE NCC 

l.root-servers.net ICANN 

m.root-servers.net WIDE Project 
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对 于 表 1-1 中 的 服务 器 ， 这 里 指出 是 13 组 ， 而 不 是 13 台 ， 是 因为 其 中 的 大 部 分 服务 器 采用 了 anycast 技 术 ， 将 其 分 布 到 不 同 地 区 ， 也 就 是 说 ， 虽 然 看 起 来 只 有 13 个 IP， 但 实际 的 服务 器 数量 远 远 超过 了 13 
。Anycast 是 在 大 型 DNS 系统 中 广泛 使 用 的 多 点 部 署 、 分 布 式 方案 ， 对 于 提高 可 用 性 、 提 高 性 能 、 抵 抗 DDOS 有 重要 作用 。 有 兴趣 的 读者 可 以 参考 Wikipedia 上 anycast 技 术 的 详细 介 


gr 
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: https://en.wikipedia.org/wiki/ Anycasto 
(2) 顶级 域名 服务 器 (Top Level Name Server) 
顶级 域名 服务 器 有 以 下 2 类 。 
“ 通用 顶级 域名 (Generic Top Level Domains，GTLD) 服务 器 。 例 如 服务 于 .com、.org、.info 等 授权 的 域名 服务 器 。 
“ 国家 代码 顶级 域名 (Country Code Top Level Domains, CCTLD) 服务 器 。 例 如 服务 于 .uk、.cn、.jp 等 授权 的 域名 服务 器 。 
完整 的 顶级 域名 服务 器 列表 ， 可 以 从 http://www.iana.org/domains/root/db 这 个 链接 获取 。 例 如 负责 .cn 授权 的 国家 代码 顶级 域名 服务 器 ， 详 见 表 1-2。 


表 1-2 负责 解析 .cn 的 顶级 域名 服务 器 列表 


主 机 名 IP 地 址 
ns.cernet.net 202.112.0.44 
a.dns.cn 203.119.25.1 
c.dns.cn 203.119.27.1 
b.dns.en 203.119.26.1 
d.dns.cn 203.119.28.1 
e.dns.cn 203.119.29.1 


(3) 二 级 域名 服务 器 (Second Level Name Server) 


这 类 域名 服务 器 ， 服 务 于 具体 域名 解析 ， 例 如 负责 解析 sdo.com 域 的 域名 服务 器 ns.uugame.com 等 。 


以 上 3 类 权威 域名 服务 器 的 授权 结构 可 以 参考 图 1-1。 


根 域名 服务 需 


顶级 域名 服务 器 


.amazon.com i 二 级 域名 服务 需 


图 1-1 权威 域名 服务 器 的 授权 结构 图 


2. 缓 存 域名 服务 器 (Caching Name Server) 


这 类 域名 服务 器 ， 负 责 接收 解析 器 发 过 来 的 DNS 请 求 ， 通 过 依次 查询 根 域名 服务 器 一 顶级 域名 服务 器 一 二 级 域名 服务 器 来 获得 DNS 的 解析 条 目 ， 然 后 把 响应 结果 发 送 给 解析 器 。 同 时 根据 DNS 条 目的 
TTL (Time To Live， 存 活 时 间 ) 值 进行 缓存 。 


缓存 域名 服务 器 ， 有 以 下 2 个 用 途 。 


“ 用 在 企业 局 域 网 内 部 ， 作 为 该 局 域 网 的 DNS 服务 器 。 这 样 就 可 以 避免 内 部 用 户 的 主机 访问 外 部 非 授 权 的 DNS 服务 器 ， 避 兔 DNS 污 染 等 问题 。 
“ 用 于 电信 等 运营 商 为 其 租户 提供 域名 解析 服务 。 如 上 海 电信 的 202.96.209.5 和 202.96.209.133 都 是 此 种 类 型 的 服务 器 。 
- 用 于 开放 DNS 解析 服务 。 如 Google 的 8.8.8.8、Norton 安 全 DNS 199.85.126.30 及 国内 的 114.114.114.114 等 都 是 此 类 。 


3. 转 发 域名 服务 器 (Forwarding Name Server) 


这 类 域名 服务 器 ， 负 责 接收 解析 器 发 过 来 的 DNS 请 求 ， 转 发 给 指定 的 上 级 域名 服务 器 获得 DNS 的 解析 条 目 ， 然 后 把 响应 结果 发 送 给 解析 器 。 和 缓存 域名 服务 器 不 同 ， 这 类 域名 服务 器 不 进行 任何 的 缓 
存 ， 而 仅仅 是 转发 。 


递归 查询 与 迭代 查询 的 区 别 


在 了 解 了 DNS 的 重要 概念 之 后 ， 现 在 来 研究 “递归 查询 ”。 


递归 查询 可 以 使 用 图 1-2 进 行 说 明 。 


Q5 55s 2s 


( 2) 请 求解 析 www.amazon.com 


(3) 返回 负责 解析 .com 的 顶级 域名 服务 器 列表 


( 4) 请 求解 析 Wwww.amazon.com 


C1) 请求 解析 www.amazon.com 合 顶 级 域名 服务 器 


(5) 返回 负责 解析 .amazon.c 
的 域名 服务 器 列表 


( 8) 返回 www.amazon.com om 
对 应 的 DNS 记录 
Obres 加 本 地 域名 服务 器 


(6) 请 求解 机 www.amazon.com 


(7) 返回 www.amazon.com 
对 应 的 DNSIC 录 
O Wy Ws 


图 1-2 ”递归 查询 架构 图 


递归 查询 ， 是 指 在 图 1-2 中 角色 为 全 本 地 域名 服务 器 上 ， 它 代 蔡 @ 解 析 器 ， 依 次 查询 登 根 域名 服务 器 一 @ 顶 级 域名 服务 器 一 会 二 级 域名 服务 器 来 获得 DNS 的 解析 条 目 ， 然 后 把 响应 结果 发 送 给 @ 和 解析 
器 。 


和 迭代 查询 ， 是 指 域名 服务 器 并 不 直接 代替 解析 器 进行 依次 查询 ， 而 是 给 它 返 回 一 个 参考 列表 ， 这 个 参考 列表 里 面 指出 了 可 以 解析 这 个 DNS 请 求 的 服务 器 ， 由 解析 器 再 次 对 该 列表 中 的 服务 器 进行 DNS 查 
询 以 获取 DNS 解析 结果 。 


禁用 递归 查询 的 原因 与 方法 


通过 对 递归 查询 和 迁 代 查询 的 分 析 可 以 知道 ， 对 于 权威 域名 服务 器 ， 打 开 了 递归 查询 功能 ， 相 当 于 把 它 配 置 成 了 开放 的 DNS 服务 器 ， 会 造成 大 量 的 数据 流量 ， 影 响 正 常 业务 提供 。 因 此 ， 在 权威 域名 服 
务 器 上 ， 需 要 禁用 递归 查询 。 


在 BIND 里 面 配 置 禁 用 递归 查询 的 指令 如 下 : 


recursion no; 


最 佳 实践 2: 构建 域名 解析 缓存 


域名 解析 缓存 的 必要 性 


在 部 署 服务 器 时 ， 很 多 应 用 程序 需要 调用 域名 解析 服务 ， 一 般 通 过 配置 /etc/resolv.conf 来 指定 DNS 服务 器 的 |P。 但 如 果 程 序 发 起 的 请 求 量 较 大 ， 那 么 服务 器 就 容易 被 这 些 DNS 服 务 器 禁止 访问 ; 同时 每 
次 都 去 访问 外 部 DNS 服务 器 ， 会 导致 延 时 增 大 ， 遇 到 网 络 问题 时 ， 还 会 发 生 解析 不 成 功 的 情况 。 在 这 种 情况 下 ， 需 要 配置 一 个 透明 的 DNS 解析 缓存 服务 ， 以 达到 如 下 的 效果 。 


- 优化 DNS 响 应 速度 。 通 过 组 存 DNS 的 请 求 结果 ， 后 续 相同 的 DNS 请 求 不 再 通过 访问 任何 外 部 网 络 服务 器 来 获得 结果 ， 减 少 了 网 络 访问 的 延 时 。 


- 减少 DNS 对 外 部 网 络 的 依赖 。 在 缓存 周期 内 ， 相 同 的 DNS 请 求 不 再 发 生 网 络 通信 行为 ， 可 以 减少 短暂 的 外 部 网 络 不 可 用 导致 的 影响 。 


NSCD 安 装配 置 方法 


NSCD (Name Service Caching Daemon， 名 称 服务 缓存 进程 ) 不 需要 对 应 用 程序 或 者 解析 器 做 任何 修改 ，/etc/resovl.conf 也 不 需要 做 任何 变化 ， 对 于 系统 部 署 的 影响 最 小 。 因 此 ，NSCD 成 为 Linux 
环境 中 得 到 最 广泛 的 使 用 的 域名 缓存 软件 。 本 实践 使 用 该 软件 构建 域名 缓存 服务 。 在 CentOS 6.6 上 ， 安 装 NSCD 的 方法 比较 简单 ， 使 用 如 下 命令 : 


yum -y install nscd 


NSCD 的 配置 文件 是 /etc/nscd.conf， 核 心 的 配置 代码 段 如 下 : 


enable-cache hosts yes 
positive-time-to-live hosts 3600 
negative-time-to-live hosts 20 
suggested-size hosts 211 
check-files hosts yes 
persistent hosts yes 

shared hosts yes 
max-db-size hosts 33554432 


- enable-cache 指 定 对 DNS 解析 进行 缓存 。 


positive-time-to-live 是 指 对 解析 成 功 的 DNS 结果 进行 缓存 的 时 间 。 


* negative-time-to-live 是 指 对 解析 失败 的 DNS 结果 进行 缓存 的 时 间 。 例 如 网 络 故障 导致 的 DNS 解析 失败 或 者 请 求 的 DNS 条 目 没有 配置 等 。 


suggested-size 是 NSCD 内 部 的 哈 希 表 的 大 小 ， 如 果 缓 存 条 目 数 量 远 大 于 默认 的 211 (如 10 倍 以 上 ， 则 修改 此 值 ) 。 


- check-files 是 指 是 否 检查 /etc/hosts 文 件 的 变化 。 
“ persistent 是 指 是 否 在 重启 NSCD 进 程 时 保留 已 缓存 的 条 目 。 
“ shared 是 指 是 否 允 许 客户 端 直 接 查 询 NSCD 的 内 存 镜像 以 获得 结果 。 


- max-db-size 是 指 DNS 的 缓存 大 小 ， 以 字 节 为 单位 。 


域名 解析 缓存 验证 


在 部 署 了 NSCD 后 ， 可 以 使 用 如 下 命令 检查 结果 : 


wget http://www.xufeng.info/index.html 


同时 结合 tcpdump 抓 包 ， 可 以 发 现 连续 的 多 次 该 请 求 ， 只 是 在 第 一 次 时 产生 了 网 络 DNS 请 求 ， 后 续 的 wget 命 令 ， 直 接 使 用 了 NSCD 的 缓存 结果 ， 没 有 产生 网 络 DNS 请 求 。 


另外 ， 可 以 使 用 如 下 命令 确认 NSCD 的 缓存 效果 : 


nscd -g 
hosts cache: 
23 cache hits on positive entries # 缓 存 命中 的 次 数 
0 cache hits on negative entries 
13 cache misses on positive entries # 缓 存 未 命中 的 次 数 
0 cache misses on negative entries 
63% cache hit rate rre: 
12 current number of cached values # 当 前 缓存 的 条 目 
13 maximum number of cached values 


通过 观察 发 现 ，cache hits on positive entries 这 个 字段 的 值 不 断 增加 ， 由 此 可 以 确认 域名 解析 缓存 是 生效 的 。 


在 Windows 系 统 中 ， 每 次 DNS 请 求 后 ， 系 统 会 按照 响应 结果 进行 缓存 ， 使 用 如 下 命令 可 以 看 到 当前 系统 中 缓存 的 条 目 : 


ipconfig /displaydns 
edu.csdn.net 


记录 名 称 . . . . . . . : edu.csdn.net 

记录 类 型 ， . . . . . . : 1 机 为 AR 记录 ，5 为 CNAME 别 名 等 
生存 时 间 . . . . . . . : 123 # 在 此 时 间 内 ， 本 缓存 记录 有 效 
数据 长 度 ， ， ， ， ， ， . : 4 

A (EHDIR . . . . : 101.201.171.118 # 对 应 的 解析 结 


使 用 如 下 命令 可 以 清理 本 机 的 DNS 缓存 : 


ipconfig /flushdns 


最 佳 实践 3: 配置 chroot 加 固 BIND 


chroot 是 Linux 系 统 对 应 用 程序 的 一 种 安全 约束 机 制 。 在 应 用 程序 执行 了 chroot 系 统 调用 后 ， 它 的 执行 被 限定 到 chroot 后 的 目录 下 。 例 如 在 Perl 脚 本 中 ， 使 用 chroot/chroot/test 后 ， 那 么 该 程序 看 到 的 


目录 实际 上 是 系统 的 /chroot/test 目 录 。 这 样 操作 后 ， 在 最 差 的 情况 下 ， 如 果 BIND 被 入 侵 了 ， 那 么 黑客 所 拿 到 的 


使 BIND 支 持 chroot 的 操作 步骤 有 以 下 6 步 。 


1) 创建 named 用 户 。 使 用 的 命令 如 下 : 


录 权 限 会 被 限制 到 chroot 后 的 目录 ， 不 会 对 系统 的 其 他 文件 造成 泄露 或 者 被 恶意 修改 。 


groupadd -g 25 named 
useradd -g 25 -u 25 -d /chroot/named -s /sbin/nologin named 


2) 创建 目录 结构 、 修 改 权限 。 使 用 的 命令 如 下 : 


mkdir -p /chroot/named/(dev,etc, var] 
chown named.named /chroot/named/var 


3) 创建 设备 。 使 用 的 命令 如 下 : 


mknod /chroot/named/dev/null c 1 3 
mknod /chroot/named/dev/zero c 1 5 
ed 


mknod /chroot/named/dev/random 8 


4) 复制 需要 的 文件 。 使 用 的 命令 如 下 : 


cp /etc/localtime /chroot/named/etc 


5) 在 /chroot/named/etc/named.conf 中 ， 直 接 使 用 chroot 后 的 目录 结构 即 可 ， 使 用 的 命令 如 下 : 


options { 
directory "/etc"; # 此 处 实际 上 对 应 系统 的 /chroot/named/etc 
dump-file "/var/cache_dump.db";# 此 处 实际 上 对 应 系统 的 /chroot/named/ var/cache dump.db 


statistics-file "/var/named stats.txt"; # 此 处 实际 上 对 应 系统 的 /chroot/named/var/named stats.txt 


zone-statistics yes; 
allow-query (any;); 
recursion yes; 
H 
logging( 
channel query log ( 


file "/var/query.log" versions 5 size 20m; # 此 处 实际 上 对 应 系统 的 /chroot/named/var/query.1og 


severity info; 
print-time yes; 
print-category yes; 

i 

category queries{ 
query_log; 

F 


6) 启动 named 进 程 。 使 用 的 命令 如 下 : 


named -t /chroot/named -u named -c /etc/named.conf 


这 样 操 作 完 成 后 ，named 以 普通 用 户 权限 运行 ， 运 行 环境 被 限定 到 /chroot/named 目 录 下 ， 这 样 可 以 极 大 地 增强 BIND 的 安全 性 。 


最 佳 实践 4: 利用 BIND 实 现 简单 负载 均衡 


在 BIND 中 ，DNS 的 条 目 称 为 资源 记录 (Resource Record) ， 资 源 记 录 的 种 类 很 多 ， 比 较 常 


1) A 记录 。 这 个 是 最 简单 和 常 


的 类 型 ， 即 把 域名 解析 为 IP 地 址 。 


的 有 以 下 几 个 。 


2) CNAME 记 录 。 以 下 面 的 代码 为 例 ， 它 的 含义 是 : 以 www.sdo.com.wscdns.com 这 个 域名 作为 www.sdo.com 的 别名 进行 域名 解析 ， 也 就 是 说 把 域名 www.sdo.com.wscdns.com 解 析出 来 的 IP 作 为 


E 机 所 提供 资源 的 IP。 


访问 www.sdo.com 了 


Www.sdo.com. IN CNAME 


Www.Sdo.com.wscdns.com. 


3) NS 记录 。 以 解析 sdo.com 这 个 授权 域 的 配置 项 为 例 (如 下 ) : 


@ IN NS nsi 
它 指 定 了 使 用 ns1.sdo.com 作 为 解析 授权 域 sdo.com 的 权威 域名 服务 器 ， 也 就 是 把 对 sdo.com 所 有 子 域名 的 解析 权限 授权 给 ns1.sdo.com， 解 析 器 通过 访问 ns1.sdo.com 获 得 sdo.com 子 域名 的 解析 。 
在 以 上 3 种 资源 记录 的 类 型 中 ， 在 BIND 里 面 ， 支 持 对 同一 个 域名 指定 多 个 A 记录 和 NS 记录 。 如 指定 了 多 个 A 记录 ， 在 不 同 的 解析 器 或 者 同一 个 解析 器 的 连续 多 次 请 求 中 ，BIND 会 轮 询 返 回 不 同 的 IP 地 
址 ， 达 到 简单 负载 均衡 的 效果 。 代 码 配 置 项 如 下 : 
$TTL 900 
@ IN SQ nsl.woyodns.com. ops ( 
2009061601 ; serial 
3600 ; refresh (1 hour) 
900 ; retry (15 minutes) 
604800 ; expire (1 week) 
86400 ; minimum (1 day) 
) 
;; ns & mx 
[d IN NS nsi 
[d IN NS ns2 
@ IN MX 10 mail 
@ IN A 125.76.236.141 
nsi IN A 125.76.236.129 
ns2 IN A 125.76.236.130 
proxyl IN A 117.34.71.61 
proxy2 IN A 211.100.56.7 
# 对 Proxy2.woyodns .com. 指 定 了 2 个 IP 
proxy2 IN A 211.100.56.10 
cachel IN A 211.100.56.4 
# 对 cachel .woyodns.com. 指 定 了 3 个 IP 
cachel IN A 211.100.56.5 
cachel IN A 211.100.56.6 
cache2 IN A 211.100.56.8 
# 对 cache2.woyodns .com. 指 定 了 2 个 IP 
cache2 IN A 211.100.56.11 
imagel IN A 211.100.56.9 
imagel IN A 211.100.56.12 


最 佳 实践 5: 详解 BIND 视 图 技术 及 优化 


上 一 个 实践 使 


多 个 A 记 录 的 方式 ， 实 现 了 最 基本 的 负载 均衡 设置 。 在 中 国 


过 简单 的 A 记 录 分 配 到 同一 个 机 | 


房 ， 那 么 就 存在 部 分 


BIND 视 图 工作 原理 


那么 这 个 问题 怎么 解决 呢 ? 在 BIND 里 面 提供 了 视 
说 ,可 以 使 用 BIND 视 图 技术 实现 以 下 功能 。 


“ 对 于 来 自 山 东 省 的 中 国电 信 的 DNS 请 求 ， 可 以 把 用 户 引导 到 


户 访问 延 时 大 或 者 丢 包 的 


图 (DNS View) 技术 来 解决 这 个 问题 。 


目前 的 网 络 环境 下 ， 多 个 运营 商 并 存 ， 运 营 商 之 间 存 在 一 定 的 互联 互通 问题 。 如 果 把 来 自 不 同 运营 商 或 者 地 域 的 所 有 
问题 。 


图 


DNS 视 | 


技术 ， 就 是 对 同一 个 资源 记录 根据 DNS 的 请 求 来 源 IP 地 址 不 同 分 配给 解析 器 不 同 的 解析 结果 。 也 就 是 


部 署 在 山东 省 中 国电 信 机 房 的 服务 器 上 。 


“ 对 于 无 法 匹配 到 菜 个 具体 运营 商 或 者 国外 的 用 户 ， 可 以 把 用 户 引导 到 指定 的 一 组 默认 服务 器 上 。 


所 有 以 上 的 功能 ， 都 是 为 了 实现 


户 的 就 近 访 问 ， 


也 就 是 让 


户 访问 到 对 他 来 说 网 络 质量 最 好 的 服务 器 上 。 


下 面 来 看 一 个 具体 的 配置 。 


首先 用 acl/SD_CTC 来 列举 需要 匹配 的 来 源 IP: 


acl "SD CTC" | 
58.56.0.0/15; 
58.58.0.0/16; 
58.59.0.0/17; 
60.235.0.0/16; 
122.4.0.0/14; 
123.168.0.0/14; 
222.173.0.0/16; 
222.174.0.0/15; 
H 


然后 再 用 view/SD_CTC 来 调用 acl/SD_CTC 的 内 容 : 


View "view SD CTC" { 

match-clients ( # 使 用 match-clients 指 令 ， 指 定 匹 配 来 自 这 些 IP 的 用 户 
SD CTC; # 引 用 ac1/SD_CTC 的 内 容 

B 

include "public.def"; 

# 指 定 这 些 IP 来 源 的 用 户 ， 全 用 如下 的 zone 六 伯 提供 服务 

zone "via.woyodns.com" 

type master; 

file "zone/via.any.zone"; 


zone "web.woyodns.com" ( 
type master; 
file "zone/web.any.zone"; 


zone "cdn.woyodns.com" ( 
type master; 
file "zone/cdn.hbjmCTC. zone"; 


最 后 再 用 named.conf 来 使 其 关联 起 来 生效 : 


include "acl/SD CTC"; 
include "acl/SD CNC"; 
include "acl/SD OTHER"; 
include "view/SD CTC"; 
include "view/SD CNC"; 
include "view/SD OTHER "; 


总 结 起 来 就 是 使 用 ac 指令 圈定 一 批 来 源 IP 地 址 ， 使 用 view 的 match-clients 匹 配 该 ac|， 为 其 分 配 zone 文件 用 于 解析 ， 使 用 named.conf 加 载 acl 和 view 使 其 生效 。 


BIND 视 图 优化 技巧 


读者 可 以 看 到 ， 这 里 面 核心 的 内 容 是 acl/SD_CTC 里 面 的 IP 地 址 ， 也 就 是 IP 库 。 这 些 数 据 哪 来 的 呢 ? 


u 


可 以 使 用 如 下 方法 : 


“ 使 用 纯真 IP 数 据 库 进 行 分 析 。 


- 使 用 BIND 自 带 的 log 进 行 分 析 。 分 析 日 志 的 可 行 性 主要 是 基于 目前 国内 的 开放 DNS 服务 器 ， 数 量 不 多 ， 通 过 对 log 的 多 次 分 析 即 可 逐步 精确 地 匹配 。 


使 用 如 下 指令 配置 后 ，BIND 的 请 求 数据 会 记录 在 /var/query.log: 


channel query log { 
file "/var/query.log" versions 5 size 20m; 
severity info; 
print-time yes; 
print-category yes; 
u 
category queries( 
query log; 


其 中 一 条 日 志 如 下 : 


04-Jan-2016 11:35:29.478 queries: client 210.51.28.230#52147 (www99.xufeng.info): query: www99.xufeng.info IN A +E (192.243.119.145) 


其 中 210.51.28.230 是 某 台 开放 域名 服务 器 的 地 址 ， 通 过 使 用 http://www.cnnic.cn/ 即 可 查询 出 该 |P 地 址 的 运营 商 和 地 区 等 情况 ， 然 后 将 相关 信息 添加 到 对 应 的 acl 中 。 


Oza 


BIND 视 图 技术 所 依据 的 来 源 IP 地 址 ， 并 不 是 访问 网 站 等 的 终端 用 户 的 来 源 地 址 ， 而 是 这 些 终端 用 户 配置 的 本 地 DNS 服务 器 。 如 果 山 东 省 联通 用 户 配置 了 上 海 市 电信 提供 的 DNS 服务 器 ， 则 可 能 会 被 调度 
到 电信 站 点 ， 出 现 偏差 。 


最 佳 实践 6: 关注 BIND 的 漏洞 信息 


作为 域名 服务 提供 者 ， 需 要 保证 BIND 的 安全 以 满足 业务 连续 性 的 要 求 。 因 此 ， 需 要 经 常 关 注 BIND 的 漏洞 信息 。 


针对 BIND 的 攻击 ， 可 以 分 为 以 下 几 类 。 
“ 使 用 恶意 构造 的 DNS 请 求 ， 使 HIND 的 named 进 程 退 出 。 此 时 将 导致 BIND 无 法 为 正常 用 户 提供 域名 解析 服务 。 
.入侵 BIND 进 行 提 权 。 


对 此 ， 我 们 需要 做 的 工作 有 如 下 2 点 。 


- 关注 BIND 官 方 的 安全 通告 。 官 方 安全 通告 的 链接 是 https://kb.isc.org/article/AA-00913/0/BIND-9-Security-Vulnerability-Matrix.html。 


“ 尽量 使 用 最 新 的 BIND 版 本 进行 初次 部 署 ， 然 后 持续 升级 BIND 版 本 。 


最 佳 实践 7: 掌握 BIND 监 控 技巧 


域名 解析 往往 关系 到 业务 访问 的 第 一 步 ， 因 此 ， 需 要 对 BIND 进 行 监控 ， 以 保证 在 第 一 时 间 知 道 它 是 否 工作 正常 。 


以 下 是 监控 的 3 个 方面 。 


* 系统 负载 监控 。 基 本 的 CPU 使 用 率 、 内 存 使 用 率 、 网 络 带宽 监控 。 关 于 主机 的 基本 系统 监控 ， 本 节 不 再 进行 黄 述 。 请 查阅 本 书 第 12 章 和 第 13 章 的 相关 内 容 。 
:named 进 程 监控 。 如 该 进程 不 存在 ， 则 需要 报警 。 在 运 维系 统 里 面 ， 曾 经 发 生 过 因 BIND 的 bug 导 致 被 黑客 构造 恶意 请 求 而 使 named 进 程 退出 的 情况 。 使 用 进程 监控 ， 可 以 获得 进程 运行 状态 的 信息 。 


: 使 用 dig 对 named 提 供 的 服务 进行 监控 。 这 一 个 级 别 的 监控 ， 是 对 named 自 身 提供 的 服务 的 监控 。 可 以 通过 模拟 用 户 请 求 的 方法 ， 获 得 named 工 作 是 否 正 常 的 信息 。 


使 用 的 命令 如 下 : 


dig Gserver-ip named 提 供 服 务 的 权威 域 的 域名 A 


本 章 小 结 


DNS 是 互联 网 领域 最 重要 的 系统 之 一 ， 直 接 关 系 到 用 户 访问 的 第 一 步 是 否 成 功 。 


本 章 首先 讲解 了 DNS 系统 的 几 个 核心 概念 ， 如 DNS 系统 的 组 成 部 分 、 域 名 服务 器 的 分 类 、 递 归 与 夺 代 查询 等 。 深 入 理解 这 些 概念 是 掌握 DNS 的 关键 ， 也 是 分 析 和 解决 问题 的 基石 。 本 章 的 最 佳 实践 ， 分 
别 从 加 速 访问 、 人 安全 设 定 、 基 本 负载 均衡 、 基 于 视图 的 设置 和 优化 及 监控 等 方面 ， 对 BIND 进 行 了 全 方位 的 讲解 。DNS 系 统 ， 特 别 是 视图 技术 ， 与 后 面 一 章 的 CDN 网 络 密切 相关 ， 下 一 章 的 部 分 内 容 依赖 于 本 
章 的 DNS 知识 。 通 过 本 章 的 学 习 ， 读 者 应 该 具备 了 配置 DNS 系统 的 技术 能 力 ， 同 时 也 能 够 对 DNS 系统 的 问题 进行 排查 和 故障 排除 了 。 


第 2 章 “全面 解 析 CDN 技 术 与 实战 


第 1 章 介 绍 了 DNS 的 相关 技术 。 用 户 经 过 DNS 解析 后 ， 可 以 获得 提供 业务 的 服务 器 的 IP 地 址 ， 然 后 通过 网 络 与 业务 服务 器 进行 交互 。 对 于 一 个 大 型 的 网 络 服务 ， 用 户 可 能 来 自 不 同 的 运营 商 、 不 同 的 省 
份 ， 甚 至 不 同 的 国家 。 那 么 如 何 保证 这 些 不 同 的 用 户 都 能 使 用 到 高 质量 的 网 络 服务 呢 ? 显然 ， 因 为 高 昂 的 成 本 的 原因 ， 不 可 能 在 所 有 的 运营 商 网 络 里 面 都 租用 服务 器 、 部 署 一 套 完 全 功能 的 业务 服务 器 组 。 
在 这 种 需求 下 ，CDN (Content Delivery Network， 内 容 分 发 网 络 ) 技术 应 运 而 生 ， 并 且 催 生 了 以 提供 CDN 服 务 作为 主要 盈利 模式 的 专业 公司 ， 例 如 全 球 最 大 的 CDN 厂 商 Akamai。 


本 章 采 用 从 宏观 到 微观 、 从 整体 架构 到 局 部 细节 的 方式 ， 从 介绍 典型 的 CDN 架 构 设 计 入 手 ， 再 到 理解 缓存 协议 原理 、 使 用 Squid 构 建 缓存 服务 ， 最 后 实践 了 视频 CDN、 大 规模 调度 系统 的 架构 和 部 署 。 
CDN 技 术 是 提高 用 户 访问 质量 的 重要 手段 ， 是 每 个 运 维 工程 师 都 需要 了 解 和 掌握 的 。 通 过 本 章 的 学 习 ， 我 们 将 有 能 力 构建 和 运 维 大 型 CDN 系 统 ， 并 能 游刃有余 地 解决 各 种 CDN 方 面 的 问题 。 


最 佳 实践 8: 架构 典型 CDN 系 统 


CDN 系 统 是 一 个 复杂 的 系统 ， 从 核心 组 件 进行 简化 抽象 ， 可 以 用 图 2-1 进 行 说 明 。 


下 面 分 别 以 上 海 电信 用 户 、 山 东 联 通用 户 访问 同一 个 网 站 www.xufeng.info 为 例 ， 说 明 数 据 访问 流程 。 以 下 是 具体 步骤 。 


1) 上 海 电 信用 户 请 求 其 配置 的 上 海 电信 DNS 服务 器 ， 要 求解 析 www.xufeng.info。 


2) 如 果 上 海 电信 DNS 服务 器 上 没有 该 域名 的 缓存 ， 则 该 服务 器 会 请 求 xufeng.info 的 权威 域名 服务 器 。 如 果 有 该 域名 的 缓存 ， 则 直接 返回 缓存 的 DNS 解析 结果 。 


Ic DNS 请 求 、 
SN Ir] Ff "n 应 Dy s 
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权威 域名 服务 器 。 山东 联通 DNS 857. 
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节点 
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图 2-1 CDN 系 统 组 成 部 分 架构 简 图 


3) xufeng.info 的 权威 域名 服务 器 会 根据 DNS 视图 技术 ， 依 据 上 海 电信 DNS 服务 器 的 来 源 IP， 把 www.xufeng.info 解 析 到 上 海 电信 CDN 节 点 。 


4) 上 海 电信 用 户 访问 到 上 海 电信 CDN 节 点 。 


5) 上 海 电信 CDN 节 点 使 用 缓存 + 代理 的 方式 访问 到 源 站 。 


和 以 上 的 5 个 步骤 类 似 ， 山 东 联 通用 户 解 析 到 山东 联通 CDN 节 点 ， 通 过 山东 联通 CDN 节 点 访问 到 源 站 资源 。 


通过 以 上 的 5 个 简要 的 步骤 ， 可 以 分 析出 CDN 系 统 的 2 个 关键 技术 分 别 如 下 。 


“ DNS 的 视图 技术 : 通过 该 技术 ,使 得 来 自 不 同 区 域 、 运 营 商 的 用 户 被 调度 到 距离 用 户 最 近 的 不 同 的 CDN 节 点 。 它 的 作用 总 结 起 来 就 是 “调度 ”。 该 技术 在 第 1 章 中 有 详细 阅 述 ， 在 此 不 再 黄 述 。 


“CDN 节点 的 缓存 和 代理 技术 : 缓存 是 指 ， 如 果 在 该 节点 上 有 对 应 的 未 过 期 资源 ， 如 图 片 、HTML、CSS 等 ， 则 它 直 接 返 回 给 用 户 而 缩小 用 户 的 资源 等 待 时 间 ; 代理 是 指 ， 如 果 在 该 节点 上 没有 对 应 的 资 
源 ， 或 者 资源 已 经 过 期 无 效 ， 则 它 会 请 求 源 站 获取 内 容 后 再 返回 给 用 户 。 缓 存 和 代理 技术 优化 了 已 缓存 文件 的 传输 效率 。 同 时 对 于 未 被 缓存 的 文件 ， 在 某 些 情况 下 ， 在 一 定 程度 上 可 以 优化 用 户 到 源 站 之 间 
的 网 络 链 路 。 比 如 用 户 是 接 入 的 运营 商 A 宽 带 网 络 ， 而 源 站 是 部 署 在 运营 商 B， 那 么 通过 优化 的 CDN 网 络 ， 可 以 减少 用 户 直 接 跨 运营 商 访问 导致 的 高 延 时 甚至 丢 包 率 带 来 的 影响 。 


从 宏观 上 ， 在 研究 了 CDN 的 组 成 部 分 后 ， 再 来 看 看 聚焦 到 某 个 CDN 节 点 后 的 技术 细节 。 


某 个 CDN 节 点 的 典型 架构 图 ， 如 图 2-2 所 示 。 


负载 均衡 服务 天 组 


Nginx 代 理 服务 器 组 


Squid 缓存 服务 融 组 


图 2-2 CDN 节点 的 典型 架构 图 


在 图 2-2 中 ， 各 组 件 的 功能 和 设计 要 点 如 下 。 


“ 负载 均衡 服务 器 组 : 使 用 LVS 的 DR 模式 实现 4 层 的 网 络 负载 均衡 。 使 用 DR 模式 的 网 络 负载 均衡 ， 主 要 优点 是 实现 高 吞吐 量 及 屏蔽 后 端 Nginx 代 理 服务 器 组 中 单 台 服务 器 故障 导致 的 对 业务 的 影响 。 关 于 
负载 均衡 的 详细 技术 方案 和 对 比 ， 请 参阅 第 3 章 的 相关 内 容 。 


. Nginx 代 理 服务 器 组 : 使 用 Nginx 的 反 向 代理 技术 (Upstream) ， 配 置 为 url_hash 的 方式 ， 提 高 对 后 端 Squid 缓 存 服务 器 组 的 缓存 命中 率 。 同 时 ， 也 能 达到 屏蔽 后 端 Squid 缓 存 服务 器 组 中 单 台 服务 器 故障 导 
致 的 对 业务 的 影响 。 


“ Squid 缓存 服务 器 组 : 根据 HTTP 协 议 中 有 关 缓 存 设 置 的 规定 ， 实 现 对 页 面 和 资源 进行 缓存 的 关键 功能 业务 。 通 过 该 组 服务 器 ， 可 以 实现 缓存 文件 的 快速 响应 和 对 源 站 的 代理 。 


理解 HTTP 协 议 中 的 缓存 控制 指令 和 原理 ， 是 构建 Squid 缓 存 的 必要 步骤 。 下 一 个 最 佳 实践 将 对 缓存 控制 指令 和 原理 进行 探讨 。 


最 佳 实践 9: 理解 HTTP 协 议 中 的 缓存 控制 : 服务 器 端 缓存 控制 头 部 信息 


HTTP 协 议 采 用 客户 端 请 求 (Request) 、 服 务 器 端 响应 (Response) 的 模型 。 在 请 求 和 响应 中 ， 都 能 通过 相关 控制 指令 对 对 端的 缓存 行为 进行 管理 。 首 先 需要 关心 的 是 ， 服 务 器 端 响应 中 的 缓存 控制 
头 部 ， 利 用 这 些 头 部 控制 信息 可 以 精细 化 地 管理 客户 端的 缓存 行为 。 


下 面 使 用 wget 命 令 来 看 一 个 简单 的 例子 。 


# wget -S http://10.1.6.28/test.jpg # 使 用 -S 参 数 ， 指 定 显示 响应 头 部 信息 
--2016-01-08 15:47:29-- http://10.1.6.28/test.jpg 
Connecting to 10.1.6.28:80http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/O0EBPS/Text/... connected. 
HTTP request sent, awaiting responsehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 
HTTP/1.1 200 OK 
Server: nginx/1.9.7 
Date: Fri, 08 Jan 2016 07:47:28 GMT 
Content-Type: image/jpeg 
Content-Length: 20305 
Last-Modified: Fri, 08 Jan 2016 07:25:26 GMT (D 
Connection: keep-alive 
ETag: "568f6466-4f51" © 
Expires: Sat, 09 Jan 2016 07:47:28 GMT ®© 
Cache-Control: max-age-86400 @ 
Accept-Ranges: bytes 
Length: 20305 (20K) [image/jpeg] 
Saving to: "test.jpg' 


100 Ee --.-K/s in Os 


2016-01-08 15:47:29 (137 MB/s) - ^test.jpg' saved [20305/20305] 


在 该 实例 中 ， 服 务 器 端 使 用 到 了 4 个 指令 来 控制 缓存 。 


* Last-Modified: Fri, 08 Jan 201607: 25: 26 GMT@ 表 示 该 文件 的 最 后 修改 时 间 是 Fl，08 Jan 201607: 25: 26 GMT。 客 户 端 在 后 续 需要 请 求 该 文件 时 ， 使 用 对 应 的 请 求 头 部 IfModified-Since: Fri, 08 Jan 
201607: 25: 26 GMT 就 可 以 验证 服务 器 端 文件 是 否 发 生变 化 。 可 以 使 用 如 下 命令 进行 验证 : 


wget --header-'If-Modified-Since: Fri, 08 Jan 2016 07:25:26 GMT' -S http://10.1.6.28/test.jpg 


如 服务 器 端 文件 未 在 此 时 间 后 发 生变 化 ， 则 服务 器 端 不 需要 重新 发 送 整个 文件 ， 而 只 需要 发 送 “304 Not Modified” 通 知客 户 端 即 可 。 此 时 可 以 节省 传输 该 文件 的 带宽 和 时 间 。 


* ETag: "568f6466-4f51"@@ 相 当 于 该 静态 资源 的 身份 JD。 在 Web 服 务 器 Nginx 中 ，ETag 的 值 是 基于 文件 的 最 后 修改 时 间 OR) 和 文件 大 小 ( 字 节 ) 计算 出 来 的 。 浏 览 器 在 下 一 次 请 求 该 资源 的 过 程 
中 ， 使 用 IENone-Match: "568f6466-4f51" 即 可 确认 该 资源 是 否 发 生 了 变化 。 服 务 器 端 再 次 验证 ， 如 果 未 变化 ， 则 直接 返回 给 客户 端 HTTP/1.1304 Not Modified， 而 不 需要 再 次 传输 整个 文件 ， 起 到 缓存 的 效 
果 。 如 下 所 示 : 


# wget --header-'If-None-Match: "568f6466-4f51"' -S http://10.1.6.28/test.jpg 
--2016-01-08 15:59:14-- http://10.1.6.28/test.jpg 
Connecting to 10.1.6.28:80http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... connected. 
HTTP request sent, awaiting responsehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 
HTTP/1.1 304 Not Modified 
Server: nginx/1.9.7 
Date: Fri, 08 Jan 2016 07:59:14 GMT 
Last-Modified: Fri, 08 Jan 2016 07:25:26 GMT 
Connection: keep-alive 
ETag: "568f6466-4f51" 
Expires: Sat, 09 Jan 2016 07:59:14 GMT 
Cache-Control: max-age-86400 
2016-01-08 15:59:14 ERROR 304: Not Modified. 


- Expires: Sat, 09 Jan 201607: 47: 28 GMT 侠 即 服务 器 端 通知 客户 端 ， 在 Sat，09 Jan 201607: 47: 28 GMT 之 前 需要 获取 该 资源 时 ， 不 必 再 发 起 HTTP 请 求 ， 直 接 使 用 这 个 缓存 文件 即 可 。 
* Cache-Control: max-age=86400 仆 即 服务 器 端 通知 客户 端 ， 你 自 收 到 这 个 文件 起 的 86400 秒 内 ， 都 可 以 放心 使 用 ,不必 再 重复 请 求 这 个 URL。 
Qua 


侠 和 国 吓 对 同一 个 意思 的 两 种 表示 ， 前 一 个 是 绝对 时 间 ， 后 一 个 是 相对 时 间 。 这 两 个 指令 同时 使 用 时 ， max-age 优 先 起 作用 ， 因 为 有 时 客户 端 和 服务 器 端的 时 钟 并 不 完全 一 致 ， 有 时 甚至 差别 较 大 ， 故 使 
用 相对 值 更 加 合理 。 


最 佳 实践 10: 配置 和 优化 Squid 


Squid 是 对 HTTP 协 议 遵 从 性 最 好 的 缓存 软件 ， 因 此 它 在 CDN 中 得 到 了 大 量 的 部 署 ， 是 众多 CDN 公 司 使 用 到 的 核心 缓存 软件 。 在 部 署 Squid 时 ， 建 议 遵从 以 下 的 规范 。 


推荐 使 用 大 内 存 服务 器 

对 于 热点 文件 ，Squid 使 用 内 存 进 行 缓存 ， 在 access_ log 中 体现 为 TCP_MEM_HIT。 因 为 使 用 了 高 速 内 存 缓存 机 制 ， 从 而 避免 了 从 磁盘 读 入 缓存 内 容 ， 所 以 TCP_MEM_HIT 是 最 高 效 的 缓存 方法 。 服 务 器 
所 需要 的 内 存 ， 以 能 够 完全 容纳 本 站 点 的 所 有 热点 文件 为 标准 。 
推荐 每 个 磁盘 独立 使 用 


对 于 过 大 的 文件 或 者 非 经 常 访问 的 文件 ，Squid 使 用 基于 磁盘 的 缓存 。 在 创建 磁盘 缓存 时 ， 不 需要 将 磁盘 组 配置 成 RAID 10 或 者 RAID 5, RAID 6， 通 过 cache _ dir 配置 直接 使 用 每 个 独立 磁盘 进行 缓存 以 
提高 磁盘 iops。 配 置 指令 如 下 : 


cache dir ufs /mnt/sdbl 8096 32 256 
cache dir ufs /mnt/sdcl 8096 32 256 
cache dir ufs /mnt/sddl 8096 32 256 
cache dir ufs /mnt/sdel 8096 32 256 


禁用 atime 更 新 


使 用 noatime 选 项 来 mount 的 文件 系统 ， 不 会 在 读 取 磁盘 缓存 时 更 新 相应 的 inode 访 问 时 间 。 在 /etc/fstab 中 的 配置 指令 如 下 : 


/dev/sdbl /mnt/sdbl ext3 noatime,nodiratime 0 0 


配置 Squid 多 实例 


Squid 以 单 进程 运行 ， 对 多 CPU 的 架构 支持 不 好 ， 不 能 重复 利用 多 CPU 处 理 器 代理 的 高 性 能 。 解 决 这 个 问题 的 思路 是 在 部 署 Squid 的 服务 器 上 ， 部 署 Squid 多 个 实例 进程 。 在 部 署 多 个 实例 时 ， 需 要 注意 
每 个 Squid 实 例 的 以 下 配置 项 目 必须 不 同 : visible hostname, unique hostname, http port, snmp port, access log, cache log, pid filename, cache dir, 


使 用 URL 哈 希 方法 对 Squid 多 实例 进行 调度 


参考 图 2-2 所 示 的 CDN 节 点 的 典型 架构 图 ， 对 Squid 多 实例 进行 负载 均衡 时 ， 务 必 使 用 URL 哈 希 方 法 。 采 用 这 个 方法 的 好 处 如 下 。 


“ 增加 缓存 命中 率 。 相 同 的 URL 访 问 到 同一 个 Squid 实 例 上 ， 可 以 提高 Squid 缓 存 命 中 率 。 
: 避免 Squid 上 缓存 文件 的 重复 。 使 用 URIL 哈 希 后 ， 不 同 的 Squid 上 缓存 不 同 的 文件 ， 因 此 可 以 大 大 节省 Squid 磁 盘 缓 存 空间 和 内 存 缓 存 空间 。 
禁用 缓存 间 通 信 协 议 


缓存 间 通 信 协 议 的 设计 初 训 是 为 了 架构 缓存 集群 ， 尽 量 减少 对 源 站 的 访问 。 目 前 主要 有 以 下 缓存 间 通 信 协 议和 方法 : ICP, HTCP, Cache Digest、WCCP、WCCP2。 从 实践 来 看 ， 缓 存 间 通 信 协 议会 
导致 缓存 响应 的 延 时 ， 同 时 不 利于 问题 的 排查 。 因 此 ， 建 议 所 有 的 Squid 实 例 都 单独 提供 缓存 服务 ， 不 进行 缓存 间 协 议 通信 。 禁 用 的 方式 是 在 编译 时 加 入 以 下 指令 : 


configure options:  '--prefix-/usr/local/squid' '--disable-icap-client' '--disable-wccp' '--disable-wccpv2' '--disable-htcp' '--disable-ident-lookups'  '--disable-auto-locale' 
架构 二 级 缓存 
在 实践 中 ， 往 往 会 部 署 二 级 缓存 节点 以 减少 回 源 站 的 流量 。 一 级 缓存 节点 是 指 最 边缘 的 缓存 节点 ， 是 直接 服务 于 终端 用 户 的 节点 。 二 级 缓存 节点 ， 在 架构 上 实际 上 被 一 级 缓存 节点 认为 是 源 站 ， 而 不 是 


缓存 节点 。 一 级 缓存 节点 和 二 级 缓存 节点 之 间 ， 并 不 使 用 缓存 间 通 信 协 议 ， 而 是 直接 使 用 HTTP 进 行内 容 获取 或 者 缓存 内 容 验 证 。 可 以 使 用 如 下 配置 指令 : 


cache peer 10.1.6.38 parent 80 0 no-query originserver round-robin no-digest no-netdb-exchange name-server xufeng info 
acl sites xufeng info dstdomain .xufeng.info 
cache peer access server xufeng info allow sites xufeng info 


使 用 Squid Manager 获 取 运 行 状态 


Squid Manager 提 供 了 对 Squid 运 行进 程 状态 的 详细 信息 展示 通道 ， 在 配置 文件 中 使 用 如 下 指令 配置 后 ， 即 可 使 用 该 功能 : 


acl manager proto cache object 

Cachemgr passwd 6ByhK4fx config reconfigure shutdown 
http access allow manager localhost 

http access deny manager 


主要 使 用 的 命令 包括 以 下 两 类 。 


| 查看 Squid 运 行 状态 的 命令 : 


# /usr/local/squid/bin/squidclient -h 127.0.0.1 -p 80 mgr:info 
主要 关注 以 下 的 输出 《命中 率 一 般 应 该 高 于 80$) : 


Cache information for squid: 


Hits as $ of all requests: Smin: 95.0%, 60min: 91.02 # 请 求 命中 率 〈 按 次 数 计算 ) 
Hits as $ of bytes sent: 5min: 86.0%, 60min: 84.02 # 请 求 命中 率 ( 按 字 节 数 计算 ) 
Memory hits as $ of hit requests: Smin: 90.0%, 60min: 82.09 # 内 存 缓存 命中 率 


- 查看 当前 Squid 运 行 的 配置 的 命令 : 


# /usr/local/squid.bak/bin/squidclient -h 127.0.0.1 -p 80 -w 6ByhK4fx mgr:config # 使 用 -w (小 写 ) 指定 在 Squigd 中 配置 的 Manager 密 码 


优化 HTTP Range 


HTTP Range 方 法 提供 了 人 允许 客户 端 只 获取 某 个 静态 文件 部 分 内 容 的 能 力 。 典 型 的 Range 请 求 的 头 部 信息 (部 分 ) MIT: 


GET /test.rar HTTP/1.1 
Connection: close 

Host: file.xufeng.info 
Range: bytes=1025-2048 


这 个 请 求 的 含义 是 : 客户 端 希望 读 取 获取 http://file.xufeng.info/test.rar 文 件 的 从 1025 字 节 到 2048 字 节 的 部 分 内 容 。 这 种 请 求 方式 在 多 线程 下 载 器 (如 迅雷 、Flashget) 中 比较 常见 ， 通 过 多 个 线程 分 
别 获取 同一 个 URL 的 不 同 部 分 然后 组 合 起 来 ， 可 以 提高 下 载 速度 。 


在 Squid 中 ， 以 下 指令 用 于 控制 对 HTTP Range 请 求 的 缓存 行为 : 


range offset limit 


在 实践 中 ， 建 议 配置 为 以 下 值 以 平衡 Range 请 求 和 缓存 整个 文件 之 间 效率 问题 : 


range offset limit 3 MB 


这 样 配置 后 ， 如 果 用 户 请 求 的 起 始 Range 字 节 在 3MB 以 内 ， 如 Squid 本 地 没有 缓存 过 该 文件 ， 那 么 Squid 会 向 后 端 请 求 整个 文件 ， 然 后 进行 缓存 。 如 果 Range 的 起 始 范围 超过 3MB， 则 Squid 也 使 用 
Range 向 后 端 请 求 ， 此 时 文件 不 会 被 缓存 。 


最 佳 实践 11: 优化 缓存 防盗 链 


盗 链 是 指 本 网 站 的 资源 被 非 授权 的 第 三 方 网 站 直接 在 页 面 中 进行 引用 。 对 于 被 姿 链 的 网 站 来 说 ， 盗 链 现象 既 浪 费 了 大 量 的 带宽 又 失去 了 对 于 版 权 文件 的 控制 ， 因 此 需要 在 缓存 节点 上 对 URL 进 行 校 验 ， 
设置 防盗 链 。 防 盗 链 的 几 个 基本 方法 如 下 。 


: 使 用 HTTP Referer, HTTP Referer 是 HTTP 请 求 的 一 个 头 部 ， 用 于 标明 被 请 求 的 资源 是 在 哪个 页 面 中 进行 调用 的 。 对 静态 图 片 资源 文件 ， 使 用 HTTP Referer 设 置 防盗 链 即 可 。 


: 使 用 生成 动态 链接 的 方法 。 这 个 方法 的 本 质 是 首先 在 页 面 上 产生 资源 URL 的 时 候 ， 使 用 动态 编程 语言 ， 生 成 类 似 如 下 结构 http://musicl.woyo.comy/music1-abcdefphijk.mp3? key=xxxxyyyyzzzzaaaadddd。 
在 缓存 节点 上 收 到 用 户 的 请 求 时 ， 对 该 URL 的 key 进 行 验证 。 该 方法 一 般 用 于 视频 、 音 频 等 比较 大 的 文件 的 防盗 链 检查 。 


Key 的 组 成 


其 中 key=20080722101000A-MD5-KEY 表 示 一 个 加 密 串 。 加 密 串 包括 以 下 两 个 部 分 。 
: 20080722101000: 表示 时 间 蕉 ， 即 年 月 日 时 分 秒 。 


- A-MD5-KEY: 一 个 MD5 串 ， 其 计算 方式 如 下 为 A-MD5-KEY=md5 (base_url+datetime+password) 。 其 中 ，base_utl 即 请 求 中 的 http://musicl.woyo.com/music1-abcdefghijk.mp3; datetime 为 请 求 中 的 时 间 
48,20080722101000; password 是 源 站 和 CDN 约 定 的 一 个 密码 。 


校 验 过 程 


具体 的 校 验 过 程 如 下 : 


A 


丛 查 防盗 链 的 串 (Bikey) 是 否 存在 ， 如 果 不 存在 ， 则 返回 校 验 失败 。 


2) 从 防盗 链 串 中 取出 日 期 时 间 ， 与 当前 时 间 比 较 ， 如 果 超 出 有 效 期 范围 (例如 ， 如 果 与 当前 时 间 相 减 ， 大 于 +2 小 时 ) ， 则 返回 校 验 失败 。 


3) 生成 MD5 的 值 ， 与 请 求 中 的 A-MD5-KEY 相 比较 ， 如 果 不 等 ， 则 返回 校 验 失 败 。 


4) 如 果 上 述 步骤 都 通过 ， 则 返回 校 验 成 功 。 


5) 如 果 校 验 成 功 ， 则 CDN 缓 存 服务 器 向 用 户 返 回 正常 的 响应 。 


回 


6) 如 果 校 验 失败 ， 则 向 把 请 求 重 定向 到 广告 音频 。 


在 Squid 配 置 文 件 中 /usr/local/squid/etc/squid.conf 增 加 如 下 配置 : 


redirect program /usr/local/squid/etc/checkkey.pl 
redirect children 20 


安装 Perl| 的 MD5 模 块 : 


cd /root 

wget http://www.kamnet.cn/srv/Digest-MD5-2.36.tar.gz 
wget http: //www.kamnet.cn/srv/Digest-Perl-MD5-1.8.tar.gz 
tar xvfz Digest-MD5-2.36.tar.gz 

cd Digest-MD5-2.36 

perl Makefile.PL 

make 

make install 

cd http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/0EBPS/Text/.. 
tar xvfz Digest-Perl-MD5-1.8.tar.gz 

cd Digest-Perl-MD5-1.8 

perl Makefile.PL 

make 

make install 


源码 (checkkey.pl) : 


#!/usr/bin/perl -wl 
use Digest::Perl::MD5 'md5_hex'; 
use POSIX qw(strftime); 


$1=1; 

my $password = 'IblessWoyo'; 

my $errurl = 'http://err.woyo.com/woyo.mp3'; 
my $result = 'http://err.woyo.com/woyo.wma'; 


while (<>) { 
($uri, $client, $ident, $method) Ce 
($uri, $client, $ident, $method) = split; # 解 析 Squid 传 入 的 参数 
my $time from = strftime "$Y$m$d$H$M$S", localtime(time - 1*3600); 
my $time to = strftime "$Y$m$d$H$M$S", localtime (time + 1*3600); 
next unless (Suri --m/^http: V/V (.*2) V/ (. *) \?key=( [0-9] {14}) (.+) $/) ; 
if (($4 eq md5 hex("/".$2.$3.$password)) && ($3 > $time from) && ($3 < $time to)) ( # 检 查 md5 和 URL 中 包含 的 时 间 
$result = "http: V/N/$1:81NV/$2"; 


) else ( 
$result = $errurl; 


) continue ( 
print $result; # 通 知 Squid 防 姿 链 检 查 结果 
} 


最 佳 实践 12: 实践 视频 点 播 CDN 


视频 点 播 CDN 系 统 概述 


Woyo 视 频 CDN 系 统 基于 Linux 系 统 。 基 本 属性 如 下 。 
- 以 Lighttpd 作 为 FLV 请 求 服务 器 。 
"以 Tokyo Cabinet 作 为 HASH 表 数据 库 。 


”以 Python、Penl 开 发 各 类 控制 模块 。 


本 系统 主要 面向 Woyo 网 的 视频 CDN 分 发 与 访问 需求 而 开发 ， 因 此 针对 性 较 强 。 该 系统 具有 以 下 特点 。 


“ 实现 未 完全 加 载 视频 的 即时 拖 动 功能 。 

“ 实现 跨 IDC 的 缓存 资源 共享 。 

| 主动 式 同步 与 删除 ， 根 据 视频 文件 访问 量 决定 缓存 位 置 和 缓存 次 数 。 
“ 对 缓存 服务 器 的 空间 与 流量 可 控 。 

C 提供 源 站 文件 存储 的 扩展 性 。 


“ 提高 节点 缓存 服务 器 的 空间 利用 率 。 


< 方便 实现 防盗 链 。 
系统 模块 分 类 


根据 本 CDN 系 统 的 服务 器 类 型 ， 将 整套 系统 分 为 4 大 模块 (不 考虑 DNS 解析 等 常规 的 CDN 组 件 ) 。 


: 同步 源 站 服务 器 。 它 的 功能 是 提供 所 有 的 视频 文件 下 载 ， 仅 提供 给 缓存 服务 器 作文 件 同步 。 


“ 视频 源 站 服务 器 。 当 缓存 服务 器 上 不 存在 用 户 所 需 视频 文件 时 ， 将 访问 源 站 服务 器 。 根 据 存储 目录 分 布 服务 器 挂 载 点 ， 支 持 视频 拖 动 。 
: 视频 转发 服务 器 。 它 的 功能 是 提供 某 一 节点 的 URL 分 发 服务 ， 根 据 数据 库 信 息 决 定 URL 转 向 目标 。 


* 缓存 服务 器 。 分 布 于 各 个 节点 ， 由 视频 转发 服务 器 决定 缓存 内 容 ， 它 同时 支持 视频 拖 动 。 
用 户 访问 流程 


用 户 访问 某 个 URL 的 视频 点 播 文件 的 流程 如 图 2-3 所 示 。 


DNS 解析 至 某 一 节点 
视频 转发 服务 器 
获取 请 求 视频 URL 信 息 


缓存 服务 器 


盗 链 文件 存在 ; 


非 盗 链 文件 


文件 存在 ; 
非 盗 链 文件 


视频 正常 下 载 


重 定 问 至 广告 视频 


图 2-3 ”视频 点 播 CDN 用 户 访问 流程 图 
同步 源 站 服务 器 
1) 服务 列表 : 


“ Lighttpd 提 供给 各 节点 服务 器 的 文件 下 载 。 


:Woyoflv.py 提 供给 各 节点 服务 器 下 载 文件 的 md5 值 。 
2) 服务 器 用 途 : 


当 请 求 格 式 为 以 下 时 ， 下 载 原始 文件 : 


http: //xxx.xxx.xxx.xxx/v2/video/1/000/327/021/200810/200810201828327021P0viOc.flv 


当 请 求 格式 为 以 下 时 ， 先 将 URL 解 析 为 实际 路 径 ， 然 后 返回 文件 的 md5 值 : 


http://XXX.XXX.XXX.XXX/hash/v1.woyo.com/videol--c6f3d45b8dac7ce0855bbf1e20081022532031788705ZL8C.flv 


结果 类 似 于 : 


v1/video/1/000/317/887/200810/20081022532031788705ZL8C.flv 
"Icele9b£ffb0d73791489a0af8be2d8c4a477dba 


3) 存储 方式 : 挂 载 主 存储 所 有 视频 分 区 (NAS) 。 


10.29.21.2:/vol/videol on /var/www/woyo/vl/video/l type nfs (rw,addr-10.29.21.2) 
10.29.21.1:/vol/video2 on /var/www/woyo/v2/video/l type nfs (rw,addr-10.29.21.1) 
10.29.21.2:/vol/video3 on /var/www/woyo/v3/video/l type nfs (rw,addr-10.29.21.2) 


4) 配置 : 在 lighttpd.conf 中 加 载 以 下 模块 。 


"mod rewrite", 
"mod proxy core", 
"mod proxy backend fastcgi"， 


获得 文件 md5 值 : 


SHTTP["url"] == "^/hash/" 4 

allow-x-send-file = "enable" 

proxy-core.balancer - "round-robin" 

proxy-core.protocol "fastcgi" 

proxy-core.backends ( "unix:/usr/local/lighttpd/log/py.sock") 
proxy-core.max-pool-size - 5 


} 


启动 fastcgi daemon: 


./spawn-fcgi -s /usr/local/lighttpd/log/py.sock -u nobody -g nobody -- woyoflv.py 


视频 源 站 服务 器 


1) 服务 列表 : 

“ Lighttpd: 提供 视频 文件 的 下 载 。 

< rewtite.pl: 提供 用 户 访问 的 URL 到 实际 存储 位 置 的 重 写 转换 。 
“ 404.cgi: 视频 文件 不 存在 时 的 广告 跳 转 。 

2) 服务 器 用 途 : 提供 视频 文件 的 用 户 访问 。 

3) 存储 方式 

“SAN 架构 ，iSCSI 方 式 挂 载 存储 至 本 地 。 

“ 提供 相应 目录 下 的 视频 文件 访问 。 

: 不同 存 储 间 文件 做 即时 同步 (另外 的 同步 系统 ) 。 


4) 配置 : 在 配置 文件 lighttpd.conf 中 加 载 以 下 模块 。 


"mod rewrite", 
"mod cgi", 
"mod flv streaming", 


支持 视频 拖 动 : 


flv-streaming.extensions = ( ".flv" ) 


将 请 求 URL rewrite 为 实际 路 径 : 


include shell "/usr/local/lighttpd/conf/rewrite.pl" 


若 文件 不 存在 ， 指 向 广告 视频 : 


server.error-handler-404 = "/404.cgi" 
cgi.assign = ( ".cgi" => "/usr/bin/perl") 


注意 : 此 404.cgi 用 Perl 写 ， 与 缓存 服务 器 的 404.cgi 作 用 不 同 。 


视频 转发 服务 器 


1) 服务 列表 : 
| Nginx: 接收 用 户 对 视频 的 URL 请 求 ， 转 发 到 实际 进行 视频 文件 判断 的 程序 url302.py。 
“ Ttserver; 存储 视频 文件 的 缓存 信息 条 目 。 
“ url302.py (daemon port: 8080) : 根据 文件 缓存 情况 返回 不 同 的 访问 地 址 〈 如 视频 文件 未 被 缓存 时 跳 转 到 源 站 、 视 频 文件 缓存 后 跳 转 到 边缘 节点 等 ) 。 
- checking.py (daemon) : 维护 服务 器 信息 和 视频 文件 缓存 信息 。 


* listswap.py (daemon port: 8088) : 维护 各 缓存 服务 器 的 访问 。 


2) 服务 器 用 途 : 


“ 所 有 视频 请 求 都 先 指 到 本 服务 器 。 


: Nginx 将 相应 域名 的 请 求 (v1 v2 v3…) 转发 至 本 地 8080 端 口 。 

“ 由 ul302.py 根 据 请 求 URL， 获 取 并 更 新 数据 库 中 的 URL 信 息 后 返回 302， 重 定向 至 源 站 或 者 缓存 或 者 广告 的 地 址 。URL 的 相应 信息 由 ttservet 获 得 (ttserver 和 另外 一 台 服 务 器 配置 同步 镜像 ) 。 
:Checkingpy 这 个 进程 定时 检查 各 个 服务 器 状态 ， 根 据 服务 器 状态 更 新 当前 服务 器 列表 。 同 时 ， 该 进程 定时 检查 数据 库 内 URL 的 状态 ， 生 成 需 缓存 的 文件 列表 和 需 删除 的 文件 列表 。 

: 将 列表 同步 至 listswap.py 进 程 。 

“ listswap.py 提 供 各 缓存 服务 器 的 访问 ， 返 回 各 服务 器 需 同 步 和 删除 的 文件 列表 。 


3) 配置 : 在 配置 文件 nginx.conf 中 增加 以 下 内 容 。 


upstream url302 { 

server 10.252.3.1:8080; 

} 

server { 

listen 80; 

server name v1.woyo.com v2.woyo.com v3.woyo.com; 
access log logs/access.log main; 
location ~ .*\.flv ( 

valid referers none blocked *.woyo.com; 
if (Sinvalid referer) ( 

rewrite ^/(.*) http://err.woyo.com/$1; 
} 

proxy pass http://ur1302; 

} 

location ~ .*\.xml { 

root /dev/shm/; 

} 

location / { 

rewrite ^/(.*) http://err.woyo.com/$1; 
} 

} 


url302.conf : 


name 'lnsyl' 

host 710.252.3.1" 

port - 8080 

check port = 8088 

memdb — (('10.252.3.1', 11211), 
('10.252,3.2', 11211)) 

basedir = '/usr/local/ur1302/' 
url302 logfile = 'log/access.log' 
url302 pidfile = 'run/ur1302.pid' 
listswap logfile 'log/listswap.log' 


listswap pidfile = 'run/listswap.pid' 
checking logfile = 'log/checking.log' 
checking pidfile = 'run/checking.pid' 
errorhost = 'err.woyo.com' 


errorurl = '/ur1302.flv' 

expire time = 86400 ttd] [s] 

click time = 2 # 访 问 超过 %$s 后 即 缓存 

Source server = (('vl.woyo.com' , '125.76.236.107'), 
'125.76.236.110'") 
( '125.76.236.108") 
( '125.76.236.111") 
('v3.woyo.com' '125.76.236.109") 
('v3.woyo.com' '125.76.236.112") 
cache server = (('218.60.34.247', 
('218.60.34.247', 'cache2:4096'), 
('218.60.34.247', 'cache3:4096'), 
('218.60.34.247', 'cache4:4096'), 
('218.60.34.248', 'cachel:4096'), 
('218.60.34.248', 'cache2:4096'), 
('218.60.34.248', 'cache3:4096'), 
( 
( 
( 
( 
( 


('vl.woyo.com' 
'v2.woyo.com' 
'v2.woyo.com' 


cachel:4096'), 


'218.60.34.248', 'cache4:4096"), 
'218.60.34.249', 'cachel:4096"), 
'218.60.34.249', 'cache2:4096'), 
'218.60.34.249', 'cache3:4096"), 
'218.60.34.249', 'cache4:4096") ) 


4) 缓存 算法 : 
< url302.py 在 每 次 URL 请 求 时 ， 将 该 click 值 增 1 ，time 值 更 新 至 当前 时 间 。 
“ url302.py 获 得 URL 请 求 后 ， 首 先 判断 URL 是 否 合法 ， 然 后 查询 数据 库 信息 ， 若 存在 location 值 ， 则 301 重 定向 至 Location 值 所 示 的 服务 器 和 缓存 目录 ; 否则 302 重 定向 至 源 站 的 随机 服务 器 。 


- checking.py 进 行 健康 检查 时 ， 若 在 线 服务 器 列表 发 生变 化 ， 则 修改 数据 库 内 容 ， 并 请 求 url302.py 监 听 端 口 发 出 指令 ， 强 制 其 更 新 列表 。 


.checkingpy 遍 历数 据 库 ， 分 析 每 一 条 URL 的 相关 信息 。 算 法 如 图 2.4 所 示 。 


存在 Location 值 


图 2-4 URL 缓 存 信息 检查 算法 


“ checking.py 将 生成 的 缓存 和 删除 列表 发 送 给 listswap.py 进 程 。 


“ 生成 缓存 列表 时 ， 根 据 URI, HASH， 参 考 各 台 缓 存 服务 器 的 磁盘 空间 来 决定 缓存 位 置 。 


缓存 服务 器 


1) 服务 列表 : 

` Lighttpd: 提供 视频 文件 的 用 户 访问 。 

“rewrite.pl: 提供 用 户 访问 的 URL 的 重 写 功能 。 

“ 404.cgi: 用 户 访问 视频 不 存在 时 重 定向 到 广告 视频 。 

' Syncingpy: 从 节点 控制 服务 器 的 listswap.py 进 程 中 获取 更 新 列表 ， 从 源 站 同步 或 者 删除 本 地 文件 。 
2) 服务 器 用 途 : 

“ 提供 视频 文件 的 用 户 访问 。 

“由 syncing.py 进 程 从 节点 控制 服务 器 的 listswap.py 进 程 中 获取 更 新 列表 ， 从 源 站 同步 或 者 删除 本 地 文件 。 


3) 存储 方式 : 本 地 磁盘 ， 不 做 raid， 分 别 mount 在 Web root 下 的 cache1、cache2http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15829/OEBPS/Text/.… 目 录 下 。 


4) 配置 : 在 Lighttpd.conf 中 加 载 以 下 模块 。 


"mod rewrite", 
"mod cgi", 
"mod flv streaming", 


支持 视频 拖 动 : 


flv-streaming.extensions = ( ".flv" ) 


将 请 求 URL rewrite 为 实际 路 径 : 


include shell "/usr/local/lighttpd/conf/rewrite.pl" 


若 文件 不 存在 ， 指 向 广告 视频 : 


server.error-handler-404 = "/404.cgi" 
cgi.assign = ( ".cgi" => "/usr/bin/python") 


注意 : 此 404.cgi 用 Python 写 ， 与 源 站 服务 器 的 404.cgi 作 用 不 同 。 


Syncing.conf : 


source host = '125.76.236.26' 
node host = '10.252.3.1' 
node port = 8088 

local ip = '218.60.34.248' 


memdb = (('10.252.3.1', 11211), 
('10.252.3.2', 11211)) 
root dir = '/var/www/flv/' 


base dir = '/usr/local/syncing/' 
pid file = 'pid' 
log file = 'log' 


5) 同步 流程 : 


@ 从 节点 控制 服务 器 listswap.py 上 获取 更 新 列表 。 


@ 加 上 /hash/ 控 制 符 ， 获 得 所 有 文件 的 md5 值 。 若 文件 不 存在 ， 则 返回 no file, 
@ 若 返回 no_file 时 ,设置 数据 库 的 Location 值 为 广告 视频 地 址 。 


@ 对 于 需 缓存 视频 ， 根 据 返 回 的 实际 路 径 ， 从 源 站 下 载 视频 到 本 地 ， 然 后 计算 本 地 文件 的 md5 值 。 若 正常 下 载 完全 ， 则 更 新 数据 库 的 Location 值 为 本 地 IP 和 相应 目录 。 


@@ 对 于 需 删 除 视频 ， 根 据 返 回 的 实际 路 径 删除 文件 ， 而 后 删除 数据 库 内 该 URL 所 有 相关 信息 。 


最 佳 实践 13: 设计 大 规模 下 载 调度 系统 


在 游戏 运 维 中 ， 高 效 地 实现 用 户 对 游戏 客户 端的 下 载 ， 是 对 CDN 等 分 发 系统 的 核心 需求 。 在 盛大 游戏 运营 的 大 型 端 游 公测 首 日 ，CDN 的 带宽 使 用 量 多 次 超过 100Gbps， 高 峰 时 甚至 达到 200Gbps 左 


右 。 


游戏 客户 端的 下 载 ， 和 一 般 的 网 站 类 应 用 使 用 到 的 静态 文件 (如 图 片 、CSS 等 ) 具有 明显 的 区 别 。 


. 游戏 客户 端 一 般 较 大 ， 目 前 主流 的 游戏 客户 端 往往 超过 10GB。 如 传奇 世界 版 本 号 为 2.1.0.40 发 布 版 为 10.9GB。 


“ 用 户 下载 时 间 较 集中 。 用 户 对 于 客户 端的 下 载 ， 对 于 新 游戏 来 说 一 般 集中 于 公测 前 一 天 、 公 测 首 日 ; 对 于 运营 中 游戏 ， 一 般 在 新 版 本 外 放 当 天 下 载 量 较 大 。 这 种 用 户 行为 直接 导致 下 载 带宽 出 现 集中 
的 高 峰 。 


在 这 个 体 量 的 下 载 流量 下 ， 我 们 设计 了 一 整套 CDN 下 载 调度 系统 ， 以 应 对 游戏 客户 端的 高 并 发 下 载 。 


“ 支持 接 入 多 个 外 部 CDN 厂 商 。 

“ 支持 接 入 自 有 的 下 载 节点 。 

“ 实现 对 下 载 客户 端 分 流 的 精确 配 比 。 
“ 多 机 房 同 时 提供 服务 。 


“ 分 配 策 略 修改 实时 生效 。 


该 调度 系统 的 架构 图 如 图 2-5 所 示 。 


操作 流程 说 明 如 下 。 


1) 运 维 人 员 通 过 配置 服务 器 来 配置 调度 策略 ， 策 略 内容 是 对 某 域名 或 者 URL 分 配 不 同 厂 商 的 CDN 权 重 。 


2) 客户 端 解析 到 某 个 调度 节点 (如 调度 节点 1) 然后 发 送 HTTP 请 求 下 载 游戏 客户 端 URL。 


3) DLC 调 度 服务 器 根据 步骤 (1) 中 配置 的 权重 ， 使 用 HTTP 302 Location 发 生 ， 分 配 该 玩家 到 指定 的 某 外 部 CDN 三 商 ，Location 是 NEW_URL。 


4) 游戏 玩家 使 用 NEW_URL 请 求 到 外 部 CDN 节 点 。 


5) 外 部 CDN 节 点 进行 响应 数据 返回 。 


“ 在 这 种 架构 中 ， 对 单个 调度 节点 来 说 ， 使 用 LVS 进 行 负载 均衡 后 ，DLC 调 度 服务 器 可 以 横向 扩展 。 


“ 多 个 机 房 使 用 DNS 多 A 记录 进行 调度 ， 减 少 单机 房 故 障 导 致 的 影响 。 


— 4) HTTP 请 求 NEW_URL 


t 5) HTTP 响 应 200 数 据 内 容 
2) HTTP 请 求 下 载 游戏 3) HTTP 响 应 302 CD : 
客户 端 URL Location=NEW_URL 点 


O00 


LVS 主 LVS 备 


DLC 调 度 服务 器 
Apache+PHP 


DLC 调 度 服 务 器 
Apache+PHP 


配置 调度 策略 配置 调度 策略 


1) 配置 调度 策略 


配置 服务 兰 


图 2-5 ”大 规模 下 载 调度 系统 架构 


本 章 小 结 


CDN 技 术 是 目前 使 用 到 的 优化 用 户 访问 体验 的 最 重要 手段 之 一 ， 在 用 户 通过 DNS 请 求 后 ， 即 被 定向 到 CDN 节 上 点。 因此， 理解 和 掌握 CDN 技 术 ， 是 每 个 运 维 工程 师 的 必 备 技能 。 本 章 全 面 解析 了 CDN 技 
术 ， 包 括 从 宏观 和 微观 的 技术 分 析 、 缓 存 协 议 解析 等 。 通 过 对 Squid 最 佳 实践 的 讲解 ， 读 者 可 以 完全 自主 搭建 一 套 高 效 通 用 的 简单 CDN 网 络 。 结 合 防盗 链 技 术 ， 用 户 可 以 保证 自 有 资源 不 会 被 第 三 方 恶意 利 
用 。 最 后 部 分 对 特殊 领域 和 业务 类 型 的 CDN 进 行 了 实战 讲解 ， 分 别 是 视频 行业 的 点 播 CDN 部 署 及 游戏 行业 的 大 客户 端 下 载 调度 系统 设计 。 


通过 本 章 的 学 习 和 实践 ， 把 用 户 通过 最 优化 的 网 络 路 径 引 导 到 了 源 站 业务 系统 。 后 续 章 节 对 于 源 站 系统 进行 优化 ， 以 保障 用 户 的 请 求 得 到 最 佳 的 处 理 从 而 获得 最 佳 的 访问 体验 。 


一 A /- Aai > 
第 3 章 负载 均衡 和 高 可 用 技术 

随 着 业务 的 发 展 以 及 用 户 访问 量 的 不 断 增加 ， 运 维系 统 往往 会 遇 到 单 台 服务 器 无 法 承载 全 部 请 求 和 处 理 负 荷 的 情况 。 同 时 ， 对 于 系统 的 可 用 性 〈Availability) 也 有 更 高 的 要 求 。 如 何 使 业务 的 压力 能 够 基 
本 均衡 地 分 布 到 不 同 的 服务 器 上 ， 同 时 减少 单 台 服 务 器 宕 机 导致 的 业务 连续 性 不 可 用 的 时 间 ， 是 运 维 工程 师 需 要 面 对 和 解决 的 问题 。 


后 续 4 章 ， 笔 者 将 对 目前 运 维 工程 师 需 要 熟悉 和 掌握 的 重要 负载 均衡 (Load Balance). 技术 和 高 可 用 (High Availability) 技术 进行 详细 闹 述 ， 同 时 指出 其 中 的 最 佳 实践 方案 ， 并 结合 案例 配置 ， 让 读者 能 够 
获得 更 贴近 工作 实际 要 求 的 技能 。 


本 章 将 概要 描述 各 种 负载 均衡 技术 和 高 可 用 技术 的 原理 ， 使 读者 在 阅读 后 面 的 章节 内 容 时 能 够 有 充足 的 知识 和 技术 储备 。 
作为 技术 铺垫 ， 首 先 对 ISO 的 OSI 七 层 互联 和 参考 模型 进行 简单 归纳 ， 见 表 3-1。 


表 3-1 ISO 的 OSI 七 层 互 联 参 考 模型 


abe IE 务 HHP -个 k 4 ; 
7. 应 用 层 (Application) 网 络 服务 与 最 终 用 户 的 一 1 HTTP. FTP, SMTP, SSH 


接口 TELNET 
6. 表示 层 (Presentation ) 数据 的 表示 、 安 全 、 压 缩 HTML. CSS, GIF 
5. 会 话 层 (Session) 建立 、 管 理 、 终 止 会 话 RPC. PAP. SSL 
: 定义 的 协议 端口 号 
4. 传输 层 (Transport ) Segments/Datagram 以 2s 流 Ard 2t mns TCP. UDP 


进行 逻辑 地 址 寻 址 ， 实 现 不 同 


à EM IPv4, IPv6, IPsec, ICMP 
网 络 之 间 的 路 径 选 择 


3. 网 络 层 (Network ) Packet 


( 续 ) 


层 示 A 
建立 逻辑 连接 、 进 行 硬件 地 址 PPP. IEEE 802.2, L2TP, 
2, AEREE: (Data lisk) 寻 址 、 差 错 效 验 等 功能 MAC. LLDP 
1. 物理 层 (Physical) 建立 、 维 护 、 断 开 物理 连接 Ethernet physical layer, 


DSL 


通过 对 网 络 进行 分 层 ， 可 以 获得 以 下 成 果 。 
人 们 可 以 很 容易 地 讨论 和 学 习 各 层 协议 的 规范 细节 。 
“ 层 间 的 标准 接口 方便 了 工程 模块 化 。 
“ 创建 了 一 个 良好 的 开放 互 连 环境 。 不 同 的 硬件 厂商 、 不 同 的 软件 产品 可 以 使 用 相同 的 协议 进行 互联 和 互 操作 。 
“ 降低 了 复杂 度 ， 使 程序 更 容易 修改 ， 使 产品 开发 的 速度 更 快 。 


“ 每 层 利 用 紧邻 的 下 层 服 务 ， 更 容易 记 住 各 层 的 功能 。 


OSI 七 层 互联 参考 模型 ， 是 分 析 问 题 的 重要 参考 。 通 过 对 每 一 层 的 深入 理解 ， 才 能 对 整个 计算 机 网 络 系统 获得 清晰 的 认识 。 以 下 内 容 使 用 到 了 该 模型 提 到 的 相关 概念 。 


最 佳 实践 14: 数据 链 路 层 负载 均衡 


通过 表 3-1 可 以 看 到 数据 链 路 层 位 于 第 二 层 ， 它 的 下 层 是 物理 层 ， 上 层 是 网 络 层 。 


数据 链 路 层 在 物理 层 提供 的 服务 的 基础 上 向 网 络 层 提供 服务 ， 其 最 基本 的 服务 是 将 源 自 网 络 层 的 数据 可 靠 地 传输 到 相 邻 节点 的 目标 机 网 络 层 。 


为 达到 这 一 目的 ， 数 据 链 路 层 必须 具备 一 系列 相应 的 功能 ， 主 要 有 以 下 几 种 。 

“ 将 数据 组 合成 数据 块 。 在 数据 链 路 层 中 称 这 种 数据 块 为 帧 (Frame) ， 帧 是 数据 链 路 层 的 传送 单位 。 
“ 控制 帧 在 物理 信道 上 的 传输 ， 包 括 如 何 处 理 传输 差错 。 

“ 调节 发 送 速率 与 接收 方 相 匹配 。 


“ 在 两 个 网 络 实体 之 间 提 供 数据 链 路 通路 的 建立 、 维 持 和 释放 的 管理 。 


链 路 层 负载 均衡 的 必要 性 


目前 主流 的 服务 器 一 般配 备 2 个 或 4 个 吞吐 量 均 为 1Gbps 的 网 卡 ，10Gbps 网 卡 因 价格 原因 和 对 交换 机 模块 的 要 求 较 高 还 未 成 为 服务 器 的 主流 配置 。 在 这 种 情况 下 ， 在 以 下 的 应 用 中 需要 对 数据 链 路 层 进 
行 负载 均衡 设计 。 


- 某 些 单个 应 用 需要 超过 1Gbps 的 吞吐 量 。 在 某 款 手 游 测试 阶段 进行 容量 评估 和 规划 时 ， 笔 者 所 在 的 运 维 团队 发 现 ， 单 台 Memcached 服 务 器 的 吞吐 量 可 能 达到 1.3Gbps 左 右 ， 明 显 超过 了 单个 网 卡 的 处 理 
能 力 ; 此 时 又 不 可 能 替换 成 10Gbps 网 卡 〈 因 网 络 架构 和 成 本 限制 ) 。 数 据 链 路 层 负 载 均 衡 成 为 唯一 可 以 采用 的 方案 。 


“ 对 网 卡 功 能 高 可 用 性 的 要 求 。 在 某 些 关键 应 用 中 ， 对 网 卡 的 可 用 性 要 求 较 高 ， 业 务 需要 在 单 网 卡 故 障 的 情况 下 保证 连续 性 ， 数 据 链 路 层 负 载 均衡 和 高 可 用 成 为 必须 要 考虑 的 实现 方案 。 


对 于 Linux 系 统 来 说 ， 数 据 链 路 层 的 负载 均衡 实现 方案 是 实施 双 网 卡 绑 定 (Bonding) ， 在 思科 (Cisco) 交换 机 上 这 一 技术 被 称 作 EtherChannel。 


Linux Bonding 配 置 过 程 


Linux Bonding 中 服务 器 和 交换 机 的 架构 如 图 3-1 所 示 。 


Cisco WS-C2960X-48TD-L 


mx — m := 王 : ss m — 


G11/0/25 


Gil/o2A | 


em4 


~ 
图 3-1 Linux Bonding 架 构 演 示 图 


表 3-2 Linux Bonding 基 本 信 


硬 件 操作 系统 IP 


服务 器 
DELL PowerEdge R720 


交换 机 
Cisco WS-C2960X-48TD-L 


CentOS 6.5 em3, em4 192.168.9.100 


Cisco IOS 15.0 fc3 G11/0/24, G11/0/25 n/a 


Linux Bonding 的 配置 步骤 如 下 。 


步骤 1 配置 交换 机 。 使 用 的 命令 如 下 : 


interface Port-channel3 

switchport access vlan 9 

switchport mode access #access 模 式 

spanning-tree portfast 

spanning-tree bpduguard enable 

interface GigabitEthernetl/0/24 

switchport access vlan 9 

switchport mode access 

spanning-tree portfast 

spanning-tree bpduguard enable 

channel-protocol lacp # 使 用 协议 IEEE 802.3ad Dynamic link aggregation 
channel-group 3 mode active 

1 

interface GigabitEthernetl/0/25 

switchport access vlan 9 

switchport mode access 

spanning-tree portfast 

spanning-tree bpduguard enable 

channel-protocol lacp # 使 用 协议 IEEE 802.3ad Dynamic link aggregation 
channel-group 3 mode active 


步骤 2 配置 Linux。 


配置 网 卡 em3 使 用 的 命令 如 下 : 

# cat /etc/sysconfig/network-scripts/ifcfg-em3 
DEVICE=em3 

BOOTPROTO=none 

ONBOOT=yes 

USERCTL-no 

MASTER-bondO # 属 于 bond0 的 成 员 

SLAVE-yes 

配置 网 卡 em4 使 用 的 命令 如 下 : 

# cat /etc/sysconfig/network-scripts/ifcfg-em4 
DEVICE=em4 

BOOTPROTO-none 

ONBOOT-yes 

USERCTL-no 

MASTER-bondO # 属 于 bond0 的 成 员 

SLAVE-yes 


配置 bond0 使 用 的 命令 如 下 : 


4 cat /etc/sysconfig/network-scripts/ifcfg-bond0 
DEVICE-bondO 

IPADDR-192.168.9.100 

NETMASK-255.255.0.0 

GATEWAY-192.168.9.5 

ONBOOT-yes 

TYPE-Ethernet 

BOOTPROTO-static 

BONDING OPTS-"miimon-100 mode-4" # 广 意 ， 此 处 mode 必 须 选 为 4 


启 网 卡 生效 。 


Oza 
(1) 步骤 2 的 配置 错误 可 能 导致 无 法 远程 登录 服务 器 。 
建议 : 使 用 带 外 管理 (Out-of-band Management) (例如 DELLiDRAC) 或 者 在 机 房 本 地 配置 。 
(2) 在 配置 过 程 中 ，Linux 的 Bonding 模 式 必须 选择 为 4， 即 IEEE 802.3ad Dynamic link aggregation。 和 否则 ，Linux 服 务 器 和 交换 机 协商 不 成 功 。 


步骤 3 ”在 交换 机 上 确认 。 命 令 如 下 : 


#show etherchannel summary 
Flags: D - down P - bundled in port-channel 


I - stand-alone s - suspended 

H - Hot-standby (LACP only) 

R - Layer3 S - Layer2 

U - in use f - failed to allocate aggregator 


M - not in use, minimum links not met 
u - unsuitable for bundling 

w - waiting to be aggregated 

d - default port 


Number of channel-groups in use: 5 


Number of aggregators: 5 

Group Port-channel Protocol Ports 

~ 寺 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
id Po1 (SD) e: 


2 Po3 (SU) LACP Gil/0/24(P) Gil/0/25 (P) 


Oza 


Po3 后面 必 须 是 SU 状态 ， 如 果 为 D， 则 表示 协商 失败 。 


步骤 4 在 服务 器 上 确认 。 使 用 的 命令 如 下 : 


# ethtool bondO 
Settings for bond0: 
Supported ports: [ ] 


Supported link modes: Not reported 


Supported pause frame use: No 
Supports auto-negotiation: No 


Advertised link modes: Not reported 


Advertised pause frame use: No 
Advertised auto-negotiation: No 


Speed: 2000Mb/s # 此 处 的 Speed 为 2 个 网 卡 之 和 


Duplex: Full # 全 双 工 
Port: Other 

PHYAD: 0 
Transceiver: internal 
Auto-negotiation: off 
Link detected: yes 


查看 bond0 状 态 ， 使 用 的 命令 如 下 : 


# cat /proc/net/bonding/bondO 


Ethernet Channel Bonding Driver: v3.6.0 (September 26, 2009) 


Bonding Mode: IEEE 802.3ad Dynamic link aggregation 


Transmit Hash Policy: layer2 (0) 
MII Status: up # 此 处 为 up 状态 

MII Polling Interval (ms): 100 
Up Delay (ms): 0 

Down Delay (ms): O 


802.3ad info 
LACP rate: slow 


Aggregator selection policy (ad select): stable 


Active Aggregator Info: 
Aggregator ID: 3 
Number of ports: 2 
Actor Key: 17 
Partner Key: 3 


Partner Mac Address: 38:20:56:67:bb:00 


Slave Interface: em3 

MII Status: up 

Speed: 1000 Mbps 

Duplex: full 

Link Failure Count: 0 

Permanent HW addr: 44:a8:42:47:f6:bd 
Aggregator ID: 3 

Slave queue ID: 0 


Slave Interface: em4 

MII Status: up 

Speed: 1000 Mbps 

Duplex: full 

Link Failure Count: 0 

Permanent HW addr: 44:a8:42:47:f6:be 
Aggregator ID: 3 

Slave queue ID: 0 


步骤 5 流量 测试 和 可 用 性 测试 。 


1) 分 别 依次 拔 掉 em3、em4 的 网 线 ， 使 用 ping 观 察 网 络 连通 情况 。 需 要 验证 : 在 任何 一 根 网 线 拔 掉 的 情况 下 ， 网 络 连通 性 不 受 影响 ， 仍 然 可 以 访问 。 


2) 从 多 个 服务 器 上 ， 同 时 使 用 iPerf (https://iperf.fr/) 工具 对 192.168.9.100 进 行 吞吐 量 测试 。 目 的 是 测试 交换 机 到 服务 器 Bonding 的 入 吞吐 量 。 需 要 验证 : 吞吐 量 达到 单 网 卡 约 2 倍 ， 


3) 从 192.168.9.100， 使 用 iPerf 同 时 向 多 个 服务 器 进行 吞吐 量 测试 。 目 的 是 测试 服务 器 Bonding 到 交换 机 的 出 吞吐 量 。 需 要 验证 : 吞吐 量 达到 单 网 卡 时 的 2 倍 左右 ， 即 约 1.8Gbps。 


该 服务 器 正常 业务 流量 的 Bonding 情 况 如 下 : 


# ifstat -b 
em3 em4 
Kbps in Kbps out Kbps in Kbps out 
380.36 211.42 239.04 106.27 
228.61 124.84 229.04 117.02 
291.90 157.84 198.16 102.17 


ZEND 329.95 261.42 89.13 
262.28 194.71 291.02 84.11 
253.73 175.69 358.40 96.60 
290.11 203.07 248.56 94.51 


261.87 165.73 | 1200.52 114.76 
229.15 192.14 413.50 103.48 
222.54 196.43 341.36 71552 
255.00 173.73 271.49 66.76 


Kbps 


619. 
457. 
490. 
538; 
553. 
612. 
538. 
1462. 
642. 
563. 
526. 


bondO 

in Kbps out 
41 317.70 
65 241.87 
06 260.01 
99 419.08 
30 278.82 
12 272.28 
67 297.58 
39 280.49 
65 295.62 
89 267.95 
49 240.49 


由 此 可 见 ，bond0 的 带宽 为 em3、em4 之 和 ， 两 个 网 卡 进行 了 负载 均衡 。 


注意 


(1) 从 Cisco 交 换 机 到 服务 器 的 端口 负载 均衡 算法 ， 采 用 了 Cisco 的 私有 算法 ， 不 可 配置 。 


约 1.8Gbps。 


(2) 从 服务 器 到 Cisco 交 换 机 发 出 数据 的 端口 选择 ， 可 以 使 用 xmit_hash_policy 这 个 配置 项 进行 调整 。 如 果 同 网 段 的 多 台 服 务 器 调用 该 绑 定 的 服务 器 ， 则 可 以 使 用 默认 算法 layer2; 对 公 网 多 IP 的 来 源 访 


问 ， 可 以 修改 为 layer2+3。 参 见 https://www.kernel.org/doc/Documentation/networking/bonding.txt。 


经 过 以 上 5 个 步骤 ， 成 功 创建 了 数据 链 路 层 的 负载 均衡 ， 针 对 前 述 提 到 的 两 个 数据 链 路 层 需求 ， 可 以 有 效 地 满足 。 


最 佳 实践 15: 4 层 负载 均衡 


解决 了 数据 链 路 层 的 负载 问题 之 后 ， 下 面 来 看 4 


从 表 3-1 可 以 知道 ， 网 络 协议 的 4 层 是 指 传输 


层 负载 均衡 技术 。 


屋 ， 包 括 TCP 和 UDP 等 协议 。 


在 W.Richard Stevens 的 著作 TCPVIP Illustrated Volume1: The protocols 中 ， 对 传输 层 协议 进行 了 详细 而 专业 的 讲解 ， 包 括 TCP 和 UDP 的 包 格式 、 建 立 和 结束 、 超 时 和 重 传 等 方面 。 在 此 不 再 进行 歼 
述 。 


4 层 负载 均衡 的 数据 格式 


下 面 来 看 一 个 实际 的 TCP 包 例子 (文件 : Layer4 Load Balancing Example.pcap, Frame 1) ， 如 图 3-2 所 示 。 


& Frame 1: 68 bytes on wire (544 bits), 68 bytes captured (544 bits) 

& Linux cooked capture 

回 Internet Protocol Version 4. Src: LIII 230 —: 28. m Dst: — 145.  — 119. 145) 
E 


TUE port: 20385 (20385) 6 
Destination port: 80 (80) 


[Stream index: 0] 
Sequence number: 861263941 
Header ML 32 bytes 
a 
Peer size ry g 64512 
[Calculated window size: 64512] 
hecksum: Oxf050 alidation d 


图 3-2 HTTP 请 求 的 TCP SYN 包 信息 


所 谓 的 4 层 负载 均衡 ， 简 单 地 说 ， 就 是 由 负载 均衡 设备 或 者 软件 (统一 称 为 负载 均衡 器 ，Load Balancer) 通过 TCP 或 者 UDP 的 Header 信 息 进行 直接 判断 由 哪个 实际 的 后 端 服务 器 来 实际 处 理 该 连接 ， 
从 而 进行 转发 。 在 这 个 例子 中 ， 可 以 用 于 负载 均衡 的 信息 是 源 端口 或 者 目的 端口 。 在 实践 中 ， 负 载 均 衡器 以 目的 端口 进行 调度 为 主 。 


4 层 负载 均衡 的 时 序 图 


4 层 负载 均衡 的 一 般 网 络 时 序 图 ， 如 图 3-3 所 示 。 


1: SYN 


1.1.1: SYN, ACK 


1.2: SYN, ACK 


3.1: PUSHDATA 
Lh 


3.1.1: PUSHDATA 


3.2: PUSHDATA 


图 3-3 4 层 负 载 均衡 的 一 般 网 络 时 序 图 
简要 说 明 如 下 。 


1) 负载 均衡 器 (Load Balancer) 在 收 到 来 自 客户 端 (Client) TCP SYN 包 后 ， 即 可 进行 负载 调度 。 


2) 向 通过 某 种 算法 选择 的 后 端 服务 器 (Real Server) 发 送 SYN 包 。 


3) 后 端 服务 器 收 到 SYN 包 后 ， 回 复 SYN + ACK。 


4) 负载 均衡 器 回复 SYN + ACK 给 客户 


E 


5) 客户 端 回复 ACK。 


6) 负载 均衡 器 发 送 ACK 给 后 端 服务 器 。 此 时 ， 客 户 端 、 负 载 均 衡器 、 后 端 服务 器 均 达到 ESTABLISHED 状 态 。 


7) 客户 端 开始 发 送 请 求 数据 ， 经 过 负载 均衡 转发 到 后 端 服务 器 。 


由 此 ， 可 以 总 结 出 4 层 负载 均衡 有 如 下 特点 。 
“ 模型 简单 。 负 载 均衡 器 不 需要 关心 业务 逻辑 ， 只 进行 负载 调度 、 网 络 转 发 和 对 后 端 服务 器 的 健康 检查 。 
“ 吞吐 量 大 。 依 据 上 条 分 析 ，CPU 处 理 逻 辑 简 单 ， 相 对 于 更 高 层次 的 负载 均衡 ， 可 以 提供 更 大 的 吞吐 量 。 


“应 用 范围 广 。 工 作 在 4 层 ， 所 以 它 几 乎 可 以 对 所 有 应 用 做 负载 均衡 ， 包 括 HTTP、 数 据 库 、 在 线 聊 天 室 等 。 


4 层 负载 均衡 的 使 用 场景 ， 可 以 总 结 为 以 下 2 种 。 


E 要 求 较 高 的 吞吐 量 。 


“ 后 端 服务 器 的 业务 逻辑 为 私有 实现 ， 无 法 直接 获取 到 应 用 层 业务 逻辑 。 


最 佳 实践 16: 7 层 负载 均衡 


7 层 负载 均衡 ， 又 称 为 “内 容 交 换 ”， 是 指 负载 均衡 器 通过 分 析 应 用 层 请 求 的 数据 特征 ， 进 行 负载 均衡 调度 。 


7 层 负载 均衡 的 数据 格式 


以 “最 佳 实践 15: 4 层 负载 均衡 ”中 的 HTTP 请 求 为 例 ， 进 一 步 分 析 网 络 数据 (文件 : Layer4 Load Balancing Example.pcap, Frame 9) ， 如 图 3-4 所 示 。 


Frame 9: 146 : bytes captured 
Linux cooked capture 
$ Internet Protocol Version 4, Src: VENE 75 750 éEEEEE 25.230), Dst: imp 119 145 GENE 119 155) 
$ Transmission Control Protocol, Src Port: 20385 (20385), Dst Port: 80 (80), Seq: 861263942, Ack: 972575520, Len: 90 
- Hypertext Transfer Protocol 
= GET /index.html HTTP/1.1Xr^n | , 
w [Expert Info xx -- GET /index.html HTTP/1.1\r\n] 


Request Method: GET 
Request URI: /index.htm @ 
Request Version: HTTP/1.1 
Host: test.example.com^r'n 
User-Agent: curl/7.43.0*r^n 
;DO*/*NFMDn 


图 3-4 HTTP 请 求 的 TCP 数 据 内 容 


TCP 建 立 以 后 ， 客 户 端 开 始 发 送 TCP 数 据 (Payload) ， 通 过 Wireshark 的 解析 ， 可 以 看 到 HTTP 请 求 的 一 些 特征 字段 ，@ 是 请 求 的 方法 ， 全 是 请 求 的 uri， 合 是 请 求 的 Host 信 息 。 在 7 层 负 载 均衡 器 实现 
中 ， 它 通过 分 析 例 如 信 、 合 、 全 等 的 信息 作为 调度 的 依据 ， 结 合 后 端 服 务 器 压力 等 ， 进 行 请 求 转发 。 


7 层 负载 均衡 的 时 序 图 


7 层 负载 均衡 的 一 般 网 络 时 序 图 如 图 3-5 所 示 。 


通过 和 图 3-3 对 比 可 以 知道 ，7 层 负载 均衡 器 在 收 到 TCP 数 据 (Payload) 后 才 可 以 进行 调度 选择 后 端 服务 器 ， 即 图 3-5 所 示 时 序 图 里 面 的 4.1 调 用 ， 向 后 端 服务 器 发 送 SYN 包 ， 要 求 建立 TCP 连 接 。 


由 此 ， 可 以 总 结 出 7 层 负载 均衡 有 如 下 特点 。 


“ 模型 复杂 度 高 。 负载 均衡 器 需要 关心 业务 逻辑 并 正确 解析 TCP 数 据 ， 根 据 请 求 数据 的 特征 ， 如 HTTP 请 求 里 面 的 主机 头 信息 ， 作 为 调度 的 依据 。 


l: SYN 


2: SYN, ACK 


3: ACK 


ESATABLISHED 


4: PUSHDATA 


5: SYN, ACK 


6: ACK 


7: PUSHDATA 


ESATABLISHED 


7.1: PUSHDATA 


8: PUSHDATA 


图 3-5 7 层 负载 均衡 的 一 般 网 络 时 序 图 


: 吞吐 量 小 。 依 据 上 条 分 析 ，CPU 处 理 复杂 ， 相 对 于 4 层 的 负载 均衡 ， 提 供 的 吞吐 量 较 小 。 
“ 对 后 端 选择 的 精细 化 控制 。 因 为 负载 均衡 器 能 够 解析 到 应 用 层 特 征 ， 所 以 能 够 对 客户 端的 请 求 更 加 合理 地 选择 ， 提 高 后 端的 执行 效率 。 比 如 针对 域名 、 目 录 结 构 等 。 


7 层 负载 均衡 的 使 用 场景 ， 可 以 总 结 为 以 下 2 种 。 


“ 后 端 服务 器 应 用 的 通信 协议 比较 开放 、 业 务 逻 辑 比 较 容易 实现 ， 有 成 熟 的 开源 或 者 商业 方案 。 


“ 需要 提高 后 端 服务 器 的 计算 效率 。 如 果 后 端 服务 器 是 缓存 服务 器 ， 如 内 存 缓存 Memcached、HTTP 缓 存 Squid Web Cache 等 ， 基 于 请 求 的 key、URL 等 进行 调度 ， 可 以 提高 后 端 服务 器 的 执行 效率 ， 增 加 命 
TES 


最 佳 实践 17: 基于 DNS 的 负载 均衡 


基于 DNS 的 负载 均衡 的 一 般 网 络 时 序 图 如 图 3-6 所 示 。 


在 Linux 下 的 DNS 实现 Bind 中 或 者 Windows 的 DNS 软件 ， 都 可 以 对 于 A 记 录 设 置 多 个 解析 。 


另外 一 种 方式 是 基于 DNS 的 视图 ， 做 基于 来 源 的 调度 。 具 体 可 以 参见 第 3 章 中 关于 DNS 视图 的 相关 内 容 。 


FH 
1.1: response 


2.1: response 


1 
1 
1 
1 
1 
1 
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1 
1 
1 
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图 3-6 基于 DNS 的 负载 均衡 的 一 般 网 络 时序 


如 下 所 示 为 BIND 中 配置 www 解 析 到 多 个 IP 的 方法 : 


图 3-7 所 示 为 某 域名 的 DNS 解析 结果 。 


[root&localhost —]* dig emmmmEE.:do.com 


; <<>> DiG 9.8.2rci-RedHat-9.8.2-0.30.rc1.el6 6.3 <<>> autopatch.sdo.com 
:; global options: «cmd 
; Got answer: 
-»»HEADER««- opcode: QUERY, status: NOERROR, 
flags: qr rd ra; QUERY: 1, ANSWER: 2, AUTHORITY: O, ADDITIONAL: O 


QUESTION SECTION: 
-— sdo. com. IN 


; ANSWER SECTION: 


; Query time: 214 msec 

; SERVER: 8.8.8.84$53(8.8.8.8) 

; WHEN: Wed Dec 2 19:43:14 2015 
; MSG SIZE rcvd: 67 


图 3-7 DNS 多 A 记 录 实 例 


基于 DNS 的 负载 均衡 方案 ， 有 如 下 特点 。 
' 配置 简单 ， 不 需要 额外 的 投入 。 直 接 在 DNS 里 面 指定 多 个 A 记 录 即 可 。 
: DNS 的 解析 缓存 问题 ， 会 导致 被 访问 到 的 服务 器 故障 时 ， 切 换 时 间 变 长 。 
:一般 要 配合 其 他 负载 均衡 方案 和 监控 机 制 。 
基于 DNS 负载 均衡 方案 的 使 用 场景 ， 可 以 总 结 为 以 下 两 种 。 
“ 可 以 选择 为 初期 的 简单 负载 均衡 方案 。 


“ 比较 适合 于 相同 业务 多 机 房 调度 时 。 如 业务 ,分布 在 ISP 义 机 房 和 ISP Y 机 房 ， 则 该 方案 比较 适用 。 


最 佳 实践 18: 基于 重 定向 的 负载 均衡 


基于 重 定向 的 负载 均衡 ， 是 指 客户 端 首先 请 求 负载 均衡 器 ， 由 负载 均衡 器 根据 算法 向 客户 端 返 回 需要 实际 处 理 业务 的 服务 器 信息 ， 如 IP 地 址 、 端 口号 或 者 更 高 层 的 应 用 层 信息 (在 HTTP 协 议 中 表现 为 
URL 等 ) ， 客 户 端 直接 根据 该 信息 向 后 端 服务 器 发 起 请 求 。 该 方案 的 一 般 网 络 时 序 图 如 图 3-8 所 示 。 


1: request 


2:ırequest 


图 3-8 ”基于 重 定向 的 负载 均衡 的 一 般 网 络 时 序 


对 比 图 3-6 和 图 3-8 可 以 看 出 ， 基 于 DNS 的 负载 均衡 和 基于 重 定向 的 负载 均衡 方案 十 分 类 似 ， 都 是 通过 第 一 次 请 求 来 获取 实际 负责 处 理 的 后 端 服 务 器 的 信息 ;不同 之 处 在 于 ， 前 者 一 般 仪 仅 返 回 网 络 层 IP 
信息 或 者 CNAME 等 ， 后 者 可 以 提供 更 高 层 信息 ， 同 时 后 者 的 算法 更 趋 于 灵活 ， 对 业务 适 配 性 更 优 。 


基于 重 定向 的 负载 均衡 方案 具有 和 基于 DNS 的 负载 均衡 方案 基本 相同 的 特点 和 使 用 场景 ， 可 以 参照 前 述 章节 。 


下 载 系统 HTTP 302 重 定向 


HTTP 302 重 定向 ， 是 这 种 负载 均衡 方案 的 一 个 比较 常见 的 使 用 方式 。 


图 3-9 所 示 为 下 载 某 个 游戏 客户 端 时 的 情形 。 


[root&localhost ~]# curl -I http://emg. clientdown.sdo. com/wZCQ141204. exe 
HTTP/1.1 302 Moved Temporarily 

Server: nginx/1.6.3 

Date: Thu, 03 Dec 2015 08:20:11 GMT 

Content-Type: text/html 

Connection: keep-alive 

X-Powered-By: PHP/5.5.22 

Location: http: / amp. clientdown. sdo. com. 8686c. com/WwZCQ141204. exe E 


[root&localhost ~]# curl -I http://amm. clientdown. sdo. com/WZCQ141204. exe 
HTTP/1.1 302 Moved Temporarily 

Server: nginx/1.6.3 

Date: Thu, 03 Dec 2015 08:20:13 GMT 

Content-Type: text/html 

Connection: keep-alive 

X-Powered-By: PHP/5.5,.22 

Location: http:/ eem. c lientdown.sdo. ccgs]1b. com. cn/WwZCQ141204. exe L2] 


3-9 通过 HTTP 302 进 行 负载 均衡 的 实例 


通过 302 方 法 ， 不 同 用 户 访问 该 链接 时 ， 按 照 预 先 配置 的 比重 (Weight) ， 概 率 地 引导 到 人 @ 或 者 人 @ 所 示 的 实际 下 载 地 址 ， 从 而 达到 分 流 的 目的 。 


以 上 演示 了 下 载 大 型 游戏 客户 端 中 使 用 重 定向 进行 负载 均衡 的 方法 。 


上 传 系统 的 重 定向 方法 


在 以 上 传 为 主 的 业务 上 ， 同 样 可 以 使 用 重 定向 进行 负载 分 担 、 流 量 切 分 。 


盛大 游戏 的 备份 系统 采用 了 基于 重 定向 的 上 传 流量 负载 均衡 调度 方案 。 


业务 需求 是 : 游戏 运营 的 服务 器 遍布 全 国 多 达 数 十 个 机 房 ， 每 日 的 数据 备份 达到 TB 以 上 ， 该 备份 数据 需要 及 时 传输 到 备份 中 心 。 


在 架构 过 程 中 需要 思考 的 问题 有 以 下 几 方面 。 


“ 跨 机 房 的 网 络 通信 问题 ， 特 别 是 跨 不 同 运营 商 的 互联 互通 问题 。 


:上传 接收 节点 的 问题 ， 单 台 服务 器 无 法 满足 写 入 要 求 ， 多 个 接收 服务 器 负载 均衡 的 问题 。 


“ 数据 保留 周期 对 集群 容量 的 要 求 。 


最 终 采 用 的 方案 如 图 3-10 所 示 。 
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图 3-10 备份 系统 重 定向 负载 均衡 架构 图 
大 致 的 工作 流程 如 下 。 
1) 客户 端 上 传 前 ， 先 请 求 负载 均衡 器 (Load Balancer) ， 获 取 接 收 机 (Cell Server) 的 IP。 
2) 客户 端 连接 接收 机 进行 数据 上 传 。 
3) Cell 把 传输 完成 并 经 过 完整 性 校 验 的 备份 文件 中 转 到 Hadoop HDFS 集 群 中 。 


4) 定时 写 入 磁带 。 


负载 均衡 器 的 调度 算法 使 用 的 是 最 小 连接 数 方案 ， 根 据 每 台 接收 机 当前 的 活跃 连接 数 选 择 最 小 的 一 台 进 行 分 配 。 


最 佳 实践 19: 基于 客户 端的 负载 均衡 


基于 客户 端的 负载 均衡 ， 是 指 由 客户 端 计算 合理 处 理 请 求 的 服务 器 ， 然 后 向 该 服务 器 发 起 请 求 获取 结果 ， 


常用 的 客户 端 负载 均衡 的 方法 主要 有 哈 希 方法 、 数 据 库 读 写 分 离 等 。 


哈 希 方法 


在 程序 中 ， 通 常 使 用 哈 希 算法 来 计算 节点 。 例 如 有 3 台 相 同 功能 的 服务 器 A、B、C， 有 一 个 数 


如 下 所 示 : 


一 般 由 客户 端 相关 库 函 数 和 APl 来 实现 。 


居 m 需 要 存储 在 其 中 一 个 节点 ， 最 简单 的 方法 是 通过 crc32， 然 后 取 模 ， 计 算出 存储 节点 。 


# php -r 'echo crc32 ("test1")%3;echo crc32("testll")$3;echo crc32 ("test111")%3;" 
021 


在 PHP 代 码 中 ， 应 用 程序 需要 访问 Memcached 时 ， 可 以 使 用 libMemcached (http://libmemcached.org/libMemcached.html) 扩展 采用 一 致 性 哈 希 (Consistent Hashing) 方法 对 多 台 
Memcached 进 行 基本 均衡 的 负载 访问 。 有 兴趣 的 读者 ， 可 以 使 用 下 面 的 代码 进行 测试 : 


<?Ph] 


php 
// 以 下 函数 ， 生 成 默认 长 度 为 10 的 随机 字符 串 
function generateRandomString ($1ength = 10) ( 


Scharacters = '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ ' ; 
$characterslength = strlen($characters); 
$randomString RAS: 


for ($i = 0; $i < Slength; $i++) ( 


SrandomString .= $characters|[rand(0, ScharactersLength - 1)]; 


return $randomString; 


) 


$servers = array( 

// 以 下 ， 对 应 修改 成 自 己 配 置 的 Memcached 服 务 器 ITP 和 端口 

array( 
'10.1.6.28', 
11211 

), 

array( 
'10.1.6.38', 
11211 

) ， 

array( 
'10.1.6.44', 
11211 

) 


); 
// 注 意 ， 使 用 Memcached 扩 展 ， 非 Memcache 扩 展 
$m = new Memcached() ; 


$m-»setOption (Memcached::OPT DISTRIBUTION, Memcached::DISTRIBUTION CONSISTENT); ; // 启 用 一 致 性 哈 希 


$m-»setOption (Memcached: :OPT LIBKETAMA COMPATIBLE, true); 
$m-»addServers ($servers); 


// 向 Memcached 集 群 set 进 10000 个 key 为 10 位 随机 字符 串 的 data 
$count = 0; 
while ($count < 10000) { 

$m-»set (generateRandomString(), 1); 

$count-*; 


数据 库 读 写 分 离 


在 基于 数据 库 的 应 用 中 ， 应 用 程序 可 以 使 用 数据 库 读 写 分 离 方法 将 对 数据 库 的 读 写 压力 进行 均衡 。MySQL 中 , 使 
力 。 应 用 程序 发 起 SQL 调用 前 ， 判 断 该 SQL 的 类 型 ， 如 为 SELECT， 则 发 送 到 Slave; 如 INSERT、UPDATE 等 ， 则 发 送 到 


基于 客户 端的 负载 均衡 方案 ， 有 如 下 特点 。 


“ 由 客户 端 程序 内 部 实现 ， 不 需要 额外 的 负载 均衡 器 软 硬 件 投入 。 


“ 程序 内 部 需要 解决 业务 服务 器 不 可 用 的 问题 ， 服 务 器 故障 对 应 用 程序 的 透明 度 小 。 


“ 程序 内 部 需要 解决 业务 服务 器 压力 过 载 的 问题 。 


基于 客户 端的 负载 均衡 方案 的 使 用 场景 ， 可 以 总 结 为 以 下 4 种 。 


“ 可 以 选择 为 初期 的 简单 负载 均衡 方案 。 


“ 比较 适合 于 客户 端 具 有 成 熟 的 调度 库 函 数 、 算 法 和 API 的 开发 工具 。 


“ 比较 适合 于 对 服务 器 入 流量 较 大 的 业务 ， 如 HTTP POST 文件 上 传 、FTP 文 件 上 传 、Memcached 大 流量 写 入 等 。 


“ 可 以 结合 其 他 负载 均衡 方案 进行 架构 。 


最 佳 实践 20: 高 可 用 技术 推荐 


主 从 复制 (Replication) 可 以 配置 一 台 或 者 多 台 Slave (从 库 ) 来 分 担 数据 读 取 压 


Master ( 主 库 ) 。 


在 以 下 4 种 负载 均衡 方案 中 ，4 层 负载 均衡 、7 层 负载 均衡 、 基 于 DNS 的 负载 均衡 、 基 于 重 定向 的 负载 均衡 ， 都 存在 负载 均衡 器 这 样 角色 的 软件 或 者 硬件 ， 如 果 该 角色 的 服务 出 现 故障 ， 则 导致 整体 业务 


不 可 用 ， 成 为 单 点 故障 (Single Point of Failure) 。 为 了 避免 该 问题 ， 需 要 对 该 服务 进行 高 可 用 架构 。 本 节 将 概要 介绍 常 F 


在 高 可 用 协议 方面 ， 常 见 的 有 3 种 ， 分 别 是 思科 的 私有 协议 热 备 路 由 协议 (Hot Standby Routing Protocol，HSRP) , 


址 元 余 协议 (Common Access Redundancy Protocol, CARP) 。HSRP 是 思科 应 


的 高 可 用 方案 ， 并 根据 经 验 进行 技术 方案 的 推荐 。 


地 


虚拟 路 由 宛 余 协议 (Virtual Router Redundancy Protocol, VRRP) ， 共 


在 路 由 器 上 的 一 种 高 可 


协议 。 在 开 


CARP 是 原生 实现 于 BSD 系 统 的 高 可 用 协议 ， 目 前 已 移植 到 Linux 系 统 ， 但 实践 中 实际 部 署 在 Linux 环 境 的 不 多 。 


原 方案 上 ，VRRP 参 照 了 HSRP 协 议 ， 同 时 增加 了 认证 功能 ， 状 态 机 也 更 加 简单 。 


S 


在 Linux 高 可 用 性 软件 方面 ， 主 要 有 Heartbeat 和 Keepalived 这 2 种 。Heartbeat 可 以 配置 使 用 单 播 (Unicast) 、 组 播 (Multicast) 、 广 播 (Broadcast) 进行 宣告 和 选举 。Keepalived 使 用 组 播 进 


告 和 选举 ， 同 时 配置 相对 简捷 。 


因此 ， 推 荐 在 Linux 环 境 下 部 署 实现 了 VRRP 协 议 的 Keepalived 进 行 高 可 上 


ES 


JE 


本 章 小 结 


理解 OSI 七 层 互联 参考 模型 ， 是 计算 机 网 络 技术 的 核心 要 点 之 一 ， 同 时 也 是 思考 和 解决 问题 、 进 行 技术 架构 的 方法 论 。 
本 章 从 OSI 七 层 模型 开始 ， 从 二 层 到 四 层 、 七 层 ， 概 要 的 讲解 了 Linux 系 统 中 可 能 遇 到 的 各 种 负载 均衡 需求 和 对 应 的 实现 方案 ， 同 时 对 高 可 用 技术 进行 了 初步 的 介绍 。 


经 过 本 章 的 技术 铺垫 ， 下 面 将 进入 具体 负载 均衡 和 高 可 用 技术 的 最 佳 实践 实施 。 


第 4 章 ”配置 及 调 优 LVS 


在 上 一 章 中 ， 我们 了 解 了 各 种 负载 均衡 的 方法 论 ， 本 章 将 重点 学 习 Linux Virtual Server (LVS) 的 最 佳 实践 。 

本 章 中 将 要 用 到 的 部 分 名 词 和 缩写 词 如 下 。 

“ IPVS、ipvs、ip_vs 是 负载 均衡 器 ( 见 本 列表 第 3 项 ) 中 的 内 核 代码 。 

“LVS (Linux Virtual Server) 是 完整 的 负载 均衡 器 + 后 端 服务 器 ( 见 本 列表 第 4 项 ) 。 这 些 组 件 组 成 了 虚拟 服务 器 (Virtual Server). ， 从 容 户 端 看 起 来 像 一 台 服 务 器 。 
“ 负载 均衡 器 (Director) ， 运 行 ipvs 代 码 的 节点 。 客 户 端 连接 到 该 节点 ， 然 后 被 转发 到 后 端 服务 器 。 

- 后 端 服务 器 (Realservers) ， 运 行 实际 服务 (Services) 的 服务 器 ， 它 们 实际 处 理 来 自 客户 端的 请 求 。 

-RPR (Client) , 发送 请 求 访问 虚拟 IP 的 主机 、 应 用 。 

“ 转发 模式 (Forwarding Method) (目前 是 LVS-NAT、LVS-DR、LVS-Tun) ， 控 制 和 决定 负载 均衡 器 以 何 种 方式 转发 来 自 客户 端的 包 到 后 端 服务 器 。 

“ 调度 (Scheduling) ， 负 载 均衡 器 使 用 到 的 算法 ， 以 选择 一 个 实际 处 理 用 户 请 求 的 后 端 服务 器 。 

- VIP (Virtual IP， 虚 拟 IP) ， 配 置 在 负载 均衡 器 上 ， 用 于 客户 端 访问 的 IP 地 址 。 


LVS 是 一 个 4 层 负载 均衡 方案 ， 标 准 的 客户 端 一 服务 器 网 络 语义 被 保留 下 来 。 每 个 客户 端 都 认为 是 直接 连接 到 了 后 端 服务 器 ， 同 时 后 端 服务 器 也 认为 直接 连接 了 客户 端 。 客 户 端 和 后 端 服务 器 没有 办 法 获 
知 负载 均衡 器 干预 了 网 络 链接 。 负 载 均 衡器 不 会 检查 包 的 内 容 ， 不 能 根据 包 的 内 容 做 出 负载 均衡 判断 〈 例 如 包 里 面包 括 了 cookie， 那 么 负载 均衡 器 是 不 知道 的 ， 也 不 会 去 关心 该 信息 ) o 


LVS 不 是 一 个 高 性 能 计算 集群 或 者 分 布 式 计算 集群 ， 后 端 服务 器 之 间 互 相 感 知 不 到 ， 不 能 协作 处 理 计 算 任 务 。 
那么 为 什么 需要 LVS 呢 ， 有 如 下 原因 。 


:为 了 更 高 的 吞吐 量 。 在 LVS 里 面 ， 添 加 后 端 服务 器 的 成 本 是 线性 的 ， 但 是 如 果 采 用 替换 为 更 高 端 单一 的 服务 器 达到 相同 的 效果 ， 成 本 会 高 很 多 。 前 者 是 横向 扩展 (Scale Out) ， 后 者 是 纵向 扩展 (Scale 
Up) 。 


“ 为 了 宛 余 。 后 端 服务 器 可 以 被 管理 员 从 LVS 集 群 中 别 除 ， 然 后 做 一 些 升 级 工作 ， 最 后 再 加 入 集群 对 外 提供 服务 。 这 样 的 操作 ， 不 会 影响 客户 端 。 


“ 为 了 适应 性 。 如 果 知 吐 量 被 评估 为 逐步 增加 的 ， 或 者 事件 性 的 陡 增 ， 后 端 服务 器 的 增加 可 以 对 用 户 透 明 。 


最 佳 实践 21: 模式 选择 
LVs 集 群 中 ， 支 持 以 下 3 种 转发 模式 : LVS-NAT、LVS-DR、LVS-Tun。 下 面 将 对 这 3 个 转发 异 式 逐一 介绍 。 


LVS-NAT 


NAT 是 该 项 目 实现 的 第 一 种 转发 模式 ， 和 思科 LocalDirector 这 一 款 产品 具有 相同 的 实现 方法 (https://en.wikipedia.org/wiki/Cisco_LocalDirecton) 。 如 果 希 望 搭建 一 个 LVS 集 群 的 测试 环境 ， 可 以 采 
这 个 转发 模式 ， 这 个 模式 是 最 简单 的 设置 ， 同 时 不 需要 对 后 端 服务 器 做 任何 设置 上 的 变更 。 


LVS-NAT 基 于 NAT (网 络 地 址 转换 ) 技术 ， 网 络 数据 流程 如 下 。 

1) 负载 均衡 器 在 收 到 客户 端 请 求 后 ， 改 写 目 的 |P 地 址 为 后 端 服务 器 真实 IP 和 /或 端口 号 ， 转 发 给 后 端 服务 器 。 
2) 后 端 服务 器 处 理 完成 后 ， 回 复 给 负载 均衡 器 。 

3) 负载 均衡 器 改写 源 |P 为 虚拟 IP， 发 送 给 客户 端 。 


由 此 可 见 ， 负 载 均衡 器 是 串联 在 整个 架构 中 。 


一 个 最 简单 的 LVS-NAT 测 试 架 构 如 图 4-1 所 示 。 


LVS-DR 


LVS-DR 中 的 DR 是 Direct Routing 的 缩写 ， 译 为 直接 路 由 。 


以 图 4-2 来 说 明 LVS-DR 转 发 模式 下 的 数据 通信 情况 。 


该 架构 图 中 的 基本 信息 见 表 4-1。 


客户 端 访问 虚拟 IP 


虚拟 IP 外 网 IP 


内 网 
192.168.100.1 
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服务 器 均衡 器 的 内 网 地 址 


"m di 


后 端 服务 器 1 
192.168.100.2 


后 端 服务 顺 2 
192.168.100.3 


后 端 服务 闫 3 
192.168.100.4 


图 4-1 一 个 最 简单 的 LVS-NAT 测 试 架构 
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表 4-1 图 4-2 中 服务 器 基本 信息 表 


ET 本 TI 


客户 端 使 用 以 下 命令 进行 测试 : 


curl http://10.1.6.18/index.html 


数据 流程 如 下 : 


步骤 1 Client 发 起 Arp Request， 请 求 10.1.6.18 的 MAC 地 址 ， 负 载 均衡 器 回复 (文件 : LVS Client Arp Request.pcap, Frame 1215) ， 如 图 4-3 所 示 。 


Frame 1215: 42 bytes on wire (336 bits), 42 bytes captured (336 bits) 
Ethernet II, Src: 84:2b:2b:48:69:d4 (84:2b:2b:48:69:d4), Dst: ff:ff:ff:ff:ff:ff Cff:ff:ff:ff:ff:ff) 
Address Resolution Protocol (request) 

Hardware type: Ethernet (1) 

Protocol type: IP (0x0800) 

Hardware size: 6 


Protocol size: 4 

Opcode: request (1) 

Sender MAC address: 84:2b:2b:48:69:d4 (84:2b:2b:48:69:d4) 
Sender IP address: 10.1.6.4 (10.1.6.4) 

Target MAC address: 00:00:00:00:00:00 (00:00:00:00:00:00) @ 
Target IP address: 10.1.6.18 (10.1.6.18) 


图 4-3 Client 的 Arp Request 
注意 目标 MAC@ 和 目的 IP 人 @@， 请 求 获取 10.1.6.18 的 MAC 地 址 。 


负载 均衡 器 回复 (文件 : LVS_Client_Arp_Request.pcap，Frame 1216) ， 如 图 4-4 所 示 。 


Frame 1216: 60 bytes on wire (480 bits), 60 bytes captured (480 bits) 
& Ethernet II, Src: 78:2b:cb:64:98:a2 (78:2b:cb:64:98:a2), Dst: 84:2b:2b:48:69:d4 (84:2b:2b:48:69:d4) 
& Address Resolution Protocol (reply) 

Hardware type: Ethernet (1) 

Protocol type: IP (0x0800) 

Hardware size: 6 


Protocol size: 4 

Opcode: reply (2) 

Sender MAC address: 78:2b:cb:64:98:a2 (78:2b:cb:64:98:a2) @ 
Sender IP address: 10.1.6.18 (10.1.6.18) 

Target MAC address: 84:2b:2b:48:69:d4 (84:2b:2b:48:69:d4) 
Target IP address: 10.1.6.4 (10.1.6.4) 


图 4-4 ”负载 均衡 器 的 Arp Response 


步骤 2 ”Client 连 接 10.1.6.18 的 80 端 口 ， 发 送 TCP SYN (文件 : LVS Client Arp Request.pcap, Frame 1217) ， 如 图 4-5 所 示 。 


& Frame 1217: 74 bytes on wire (592 bits), 74 bytes captured (592 bits) 
a Ethernet II, Src: 84:2b:2b:48:69:d4 (84:2b:2b:48:69:d4), Dst: 78:2b:cb:64:98:a2 (78:2b:cb:64:98:a2) 
& Destination: 78:2b:cb:64:98:a2 (78:2b:cb:64:98:a2) 
& Source: 84:2b:2b:48:69:d4 (84:2b:2b:48:69:d4) 
Type: IP (0x0800) 
Internet Protocol version 4, Src: 10.1.6.4 (10.1.6.4), Dst: 10.1.6.18 (10.1.6.18) 
Version: 4 
Header length: 20 bytes 
& Differentiated Services Field: 0x00 (DSCP 0x00: Default; ECN: 0x00: Not-ECT (Not ECN-Capable Transport)) 
Total Length: 60 
Identification: 0x0318 (792) 
& Flags: 0x02 (Don't Fragment) 
Fragment offset: 0 
Time to live: 64 
Protocol: TCP (6) 
& Header checksum: 0x178d [correct] 
Source: 10.1.6.4 (10.1.6.4) 
Destination: 10.1.6.18 (10.1.6.18) € 
[5ource GeoIP: Unknown] 
[Destination GeoIP: Unknown] 


图 4-5 Client A i£ TCP SYN 
此 处 ， 目 的 MAC@ 为 负载 均衡 器 LVS1 的 MAC 地 址 ， 目 的 IP@ 为 虚拟 IP。 


步骤 3 负载 均衡 器 LVS1 进 行 包 转 发 。 


步骤 4 ”后 端 服 务 器 Web1 收 到 请 求 的 数据 ， 人 处理 并 回复 给 Client (文件 : LVS Web1 Request Receive.pcap, Frame 321) ， 如 图 4-6 所 示 。 


Frame : 74 bytes on wire (592 bits), 74 bytes captured 92 bits 
Ethernet II, Src: 78:2b:cb:64:98:a2 (78:2b:cb:64:98:a2), Dst: 78:2b:cb:64:98:9f (78:2b:cb:64:98:9f) 
& Destination: 78:2b:cb:64:98:9f (78:2b:ch:64:98:9f) 
& Source: 78:2b:cb:64:98:a2 (78:2b:cb:64:98:a2) 
Type: IP (0x0800) 
i; Internet Protocol Version 4, Src: 10.1.6.4 (10.1.6.4), Dst: 10.1.6.18 (10.1.6.18) 


Source port: 50718 (60718) 

Destination port: 80 (80) 

[stream index: 7] 

Sequence number: 3945352066 

Header length: 40 bytes 
m— 


window size value: 5840 
[Calculated window size: 5840] 
& Checksum: Oxe6ca [validation disabled] 
E Options: (20 bytes), Maximum segment size, SACK permitted, Timestamps, No-Operation (NOP), Window scale 


图 4-6 Webl 收 到 改写 了 目的 MAC 的 TCP SYN 


从 此 处 的 @ 和 步 又 全 的 @ 对 比 可 以 看 到 ，Web1 收 到 的 包 Ethernnet 的 目的 MAC 已 经 被 LVS1 修 改 成 了 Web1 的 MAC 地 址 (文件 : LVS Web1 Request Receive.pcap, Frame 322) ， 如 图 4-7 所 示 。 
Web1 的 回 包 : 
从 此 处 的 Web1 的 回 包 Ethernet 的 目的 MAC@ 为 Client 的 MAC，IP 层 的 目的 IP 人 @ 为 Client 的 IP， 可 以 得 知 ， 该 回 包 没有 再 经 过 LVS1。 


从 以 上 步骤 可 以 看 到 DR (直接 路 由 ) 的 含义 : 请 求 经 过 负载 均衡 器 调度 后 ， 后 端 服务 器 的 响应 数据 流量 直接 返回 给 客户 端 ， 回 包 不 经 过 负载 均衡 器 。 


p 
c Erhernet ir, t 78:2b:cb:64:98:9f (78: 2b: e: 64:98:9f), Dst: 84:2b:2b:48:69:d4 (84:2b:2b:48:69:d4) 
四 Destination: 84:2b:2b:48:69:d4 (84:2b:2b:48:69: d) @ 
iH Source: 78:2b:cb:64:98:9f (78:2b:ch:64:98:9f) 
Type: IP (0x0800) 
= Internet Protocol version 4, Src: 10.1.6.18 (10.1.6.18), Dst: 10.1.6.4 (10.1.6.4) 
Version: 4 
Header length: 20 bytes 
a Differentiated Services Field: 0x00 (DSCP 0x00: Default; ECN: 0x00: Not-ECT (Not ECN-Capable Transport)) 
Total Length: 60 
Identification: 0x0000 (0) 
iH Flags: 0x02 (Don't Fragment) 
Fragment offset: 0 
Time to live: 64 
Protocol: TCP (6) 
H Header checksum: O0x1aa5 [correct] 
Source: 10.1.6.18 (10.1.6.18) 
Destination: 10.1.6.4 (0.1.6.0 
[Source GeoIP: Unknown] 
E Einarson GeoIP: E. ug 


图 4-7 Webl 回 复 Clinet 的 TCP SYN--ACK. 


LVS-Tun 


LVS-Tun 是 LVS 原 创 的 一 种 转发 模式 ， 基 于 LVS-DR。 负 载 均衡 器 LVS 代 码 把 原始 的 包 ( 源 客户 端 |P 到 虚拟 IP) 封装 成 ipip 包 ， 目 的 地 址 是 后 端 服务 器 的 真实 |P， 然 后 进入 OUTPUT 链 ， 并 路 由 到 后 端 服 
务 器 。 后 端 服务 器 解 封 ipip 包 并 处 理 ， 以 源 地 址 虚拟 IP、 目 的 地 址 客户 端 |P 直 接 回复 给 客户 端 。 


LVS-Tun 是 为 了 解决 后 端 服务 器 和 负载 均衡 器 不 在 同一 个 物理 区 域 所 设计 ( 跨 网 段 ) 。 


3 种 模式 对 比 与 推荐 


从 对 后 端 服务 器 的 要 求 上 来 看 ，LVS-NAT 仅 仅 要 求 后 端 服务 器 网 关 指向 负载 均衡 器 的 内 网 地 址 ， 无 任何 其 他 要 求 ; LVS-DR 模 式 要 求 后 端 服务 器 禁用 对 虚拟 IP 的 ARP 响 应 ， 后 端 服务 器 网 关 不 指向 负载 
均衡 器 ; LVS-Tun 要 求 后 端 服务 支持 ipip 解 封包 ， 部 分 操作 系统 不 支持 。 


从 吞吐 量 上 来 看 ，LVS-DR 最 高 ，LVS-NAT 最 低 。 


从 配置 简便 性 上 来 看 ，LVS-NAT 最 低 ，LVS-DR 和 LVS-Tun 均 较为 复杂 。 


本 书 推荐 在 应 用 中 使 用 LVS-DR 模 式 ， 这 个 也 是 目前 运 维 架 构 中 应 用 最 多 的 4 层 开 源 负载 均衡 转发 策略 。 


最 佳 实践 22: LVS+Keepalived 实 战 精 讲 


LVS+Keepalived 配 置 过 程 详 解 


本 节 以 上 节 图 4-2 所 示 的 架构 图 进行 LVS+Keepalived 的 实战 ， 其 中 会 指出 需要 注意 的 关键 点 。 


步骤 1 在 LVS1 和 LVS2 上 ,执行 以 下 命令 ,打开 转发 : 


# vi /etc/sysctl.conf 
net.ipv4.ip forward = 0 -> net.ipv4.ip forward = 1 
# sysctl -p 


步骤 2 ”在 LVS1 和 LVS2 上 ， 关 闭 iptables 或 者 添加 FORWARD 为 accept。 因 不 同 服务 器 要 求 的 策略 不 同 ， 在 此 不 再 进行 统一 设 定 。 


步骤 3 在 LVS1 和 LVS2 上 ， 安 装 ipvsadm 和 Keepalived。 使 用 的 命令 如 下 : 


# yum -y install ipvsadm 
4 wget http://www.keepalived.org/software/keepalived-1.2.19.tar.gz 
4 cd keepalived-1.2.19 


# ls -al 

# ./configure --disable-fwmark 

输出 结果 如 下 : 

Keepalived configuration 

Keepalived version $ 1.2;18 

Compiler z gcc 

Compiler flags : -g -02 -DETHERTYPE IPV6-0x86ad 
Extra Lib : -lssl -lcrypto -lcrypt 
Use IPVS Framework : Yes 

IPVS sync daemon support : Yes 

IPVS use libnl : No 

fwmark socket support : No 

Use VRRP Framework : Yes 

Use VRRP VMAC : No 

SNMP support : No 

SHAl support : No 

Use Debug flags : No 

# make 


# make install 

4 mkdir /etc/keepalived 

# cp /usr/local/etc/sysconfig/keepalived /etc/sysconfig 
# cp /usr/local/etc/rc.d/init.d/keepalived /etc/init.d/ 
# cp /usr/local/sbin/keepalived /sbin/ 

# chkconfig --add keepalived 

# chkconfig keepalived on 设置 开机 启动 


步骤 4 配置 LVS1 和 LVS2 的 Keepalived， 其 中 LVS1 的 配置 文件 keepalived.conf 内 容 如 下 所 示 (LVS2 的 配置 文件 根据 注释 的 提示 进行 相应 修改 即 可 ) : 


global defs { 


notification email ( E p 
xufengnju8163.com # 配 置 负载 均衡 器 检查 后 端 服务 器 失败 后 的 报警 接收 邮件 

l 

notification email from NJCIC-LVS-388notify.smtp.gcloud 

smtp server 10.168.110.249 # 该 服务 器 配置 为 SMTP Relay 服 务 ， 如 sendmail 等 

smtp connect timeout 5 . 

router id NJCTC-LVS-28 # 此 处 ，2 台 负载 均衡 器 配置 不 同 

vrrp sync group VG 1 { 

group { 
VIO 

l 


} 
vrrp instance VI 1 { 
State MASTER # 此 处 ，LVS2 上 为 BACKUP 
interface eth0 
track interface { 
etho 
} 
garp master delay 30 
virtual router id 52 
priority 150 #itá&t, Lvs2 79100 
advert int 1 
authentication ( 
auth type PASS 
auth pass 4mE8jR 
} 
virtual ipaddress { 
10.1.6.18/32 dev eth0 
l 
} 


virtual server 10.1.6.18 80 ( 
delay loop 5 
lb algo wrr 
lb kind DR 
persistence timeout 60 
protocol TCP 


real server 10.1.6.21 80 ( 
Weight 10 
# 对 后 端 服务 器 使 用 HTTP 协 议 进 行 健康 检查 
HTTP GET ( 
url ( 
path /test.html 
digest eff5bclef8ec9d03e640fc4370f5eacd 
} 
connect port 80 
connect timeout 2 
nb get retry 3 
delay before retry 1 
} 
} 
real server 10.1.6.44 80 { 
weight 10 
# 对 后 端 服务 器 使 用 HTTP 协 议 进 行 健康 检查 
HTTP GET ( 
url ( 
path /test.html 
digest eff5bclef8ec9d03e640fc4370f5eacd 
} 
connect port 80 
connect timeout 2 
nb get retry 3 
delay before retry 1 


注意 
(1) 2 台 负 载 均衡 器 LVS1 和 LVS2 之 间 使 用 vrtp 协 议 进 行 组 播 通 信 ， 如 有 iptables 则 需要 允许 ， 否 则 出 现 脑 列 现象。 我们 建议 在 初次 配置 时 先 禁 用 iptables。 


Q) 负载 均衡 器 对 后 端的 健康 检查 ， 可 以 使 用 TCP Connect 或 者 HTTP GET， 在 网 站 类 应 用 负载 均衡 方案 中 ， 推 荐 使 用 HTTP GET， 可 以 进行 应 用 层 检 查 ， 防 止 出 现 端口 存在 但 无 法 提供 业务 的 情况 。 
Keepalived 配 置 文件 中 digest 的 获取 ， 使 用 该 软件 自 带 的 genhash 工 具 ，genhash 一 help。 


步骤 5 ”配置 后 端 服务 器 Web1 和 Web2 禁 用 Arp 对 虚拟 IP 的 响应 。 使 用 的 命令 如 下 : 


# vi /etc/sysctl.conf 
net.ipv4.conf.eth0.arp ignore = 1 
net.ipv4.conf.eth0.arp announce = 
net.ipv4.conf.all.arp ignore - 1 
net.ipv4.conf.all.arp announce - 2 
# sysctl -p 


2 


步骤 6 配置 后 端 服务 器 Web1 和 Web2 的 虚拟 |P。 使 用 的 命令 如 下 : 


# ifconfig lo:0 10.1.6.18 netmask 255.255.255.255 broadcast 10.1.6.18 up 
# route add -host 10.1.6.18 dev 1o:0 


步骤 7 ”启动 负载 均衡 器 LVS1 和 LVS2 上 的 Keepalived。 使 用 的 命令 如 下 : 


# service keepalived start 


要 参数 ， 位 于 /proc/sys/net/ipv4/vs/ 目 录 下 ， 如 下 所 示 : 


# ls -al /proc/sys/net/ipv4/vs/ 
total 0 


dr-xr-xr-x 2 root root 0 Dec 5 14:39 。 

dr-xr-xr-x 6 root root 0 Dec 5 14:39 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/.. 
-rw-r--r-- 1 root root 0 Dec 5 14:39 am droprate B 
-rw-r--r-- 1 root root 0 Dec 5 14:39 amemthresh 

-rw-r--r-- 1 root root 0 Dec 5 14:39 cache bypass 

-rw-r--r-- 1 root root 0 Dec 5 14:39 drop entry 

-rw-r--r-- 1 root root 0 Dec 5 14:39 drop packet 

-rw-r--r-- 1 root root 0 Dec 5 14:39 expire nodest conn 

-rw-r--r-- 1 root root 0 Dec 5 14:39 expire quiescent template 

-rw-r--r-- 1 root root 0 Dec 5 14:39 nat icmp send Hui 

-rw-r--r-- 1 root root 0 Dec 5 14:39 secure tcp 

-rw-r--r-- 1 root root 0 Dec 5 14:39 sync threshold 


以 下 2 个 参数 对 于 LVS 的 转发 行为 有 重要 作用 。 


(1) expire nodest conn 


expire_nodest_conn 的 值 有 两 种 : 0 一 禁用 ， 默 认 值 ; 非 0 一 启用 。 默 认 值 是 0， 在 负载 均衡 器 发 现 目标 后 端 服务 器 不 可 用 时 会 丢弃 包 。 在 某 些 情况 下 可 能 有 用 ， 例 如 用 户 的 监控 程序 删除 了 后 端 服务 器 
(因为 过 载 或 者 判断 错误 ) 然后 又 添加 回 服务 池 ， 那 么 这 个 连接 可 以 继续 。 


如 果 启用 了 该 特性 ， 负 载 均衡 器 会 立即 使 该 连接 过 期 ， 然 后 客户 端 会 得 到 通知 连接 已 经 关闭 。 


(2) expire quiescent template 


expire quiescent template 的 值 有 两 种 : 0 一 禁用 ， 默 认 值 ; 非 0 一 启用 。 如 果 非 0， 那 么 负载 均衡 器 当 发 现 被 调度 的 后 端 服务 器 处 于 静止 期 (权重 为 0) 会 立即 使 持久 连接 过 期 ， 并 被 发 送 到 新 的 服务 
器 。 


以 下 参数 对 LVS 同 步 状 态 有 重要 作用 。 


(3) sync threshold 


sync threshold 的 默认 取 值 为 3 一 默认 值 。 表 示 一 个 连接 上 收 到 至 少 多 少 个 包 之 后 ， 才 开始 进行 连接 状态 的 同步 。 一 个 连接 的 状态 在 以 下 情况 下 会 被 同步 : 它 收 到 的 包 的 数量 用 50 取 余 等 于 该 设 定 值 
时 ， 取 值 范围 0~ 49。 


LVS-DR 模 式 的 核心 提示 与 优化 


LVS-DR 模 式 的 核心 提示 与 优化 如 下 : 


“ LVS-DR 模 式 ， 因 后 端 服务 器 上 同样 配置 了 虚拟 IP， 如 果 在 客户 端 进行 ARP 请 求 的 时 候 ， 后 端 服务 器 以 自身 的 MAC 地 址 进行 了 回复 ， 则 起 不 到 负载 均衡 的 效果 ， 此 时 客户 端 直接 连 到 了 菜 台 后 端 服务 器 


' 后 端 服务 器 的 虚拟 IP 必 须 绑 定 到 lo: 0 上 ， 同 时 指定 子 网 掩 码 是 255.255.255.255， 否 则 ARP 禁 用 会 出 现 异 常 。 


“ 持久 连接 (Persistence) 的 问题 。 持 久 连 接 使 同一 个 客户 端 在 超时 时 间 内 (ipvsadm -p 参 数 指 定 ，Keepalived 中 的 persistence_timeout 指 令 ) 会 持续 地 连接 到 同一 台 后 端 服务 器 ， 这 个 是 4 层 上 的 持久 连 
接 。 来 自 客户 端的 每 个 新 的 连接 会 重 置 该 超时 时 间 。 


* Keepalived 对 后 端 服务 器 的 健康 检查 ， 推 荐 使 用 应 用 层 检 查 方式 ， 另 外 可 以 配置 Keepalived 使 用 管理 员 自 定义 的 脚本 进行 健康 检查 (MISC_CHECK 指 令 ) o 
“ 负载 均衡 器 之 间 使 用 vrtp 协 议 进行 高 可 用 设置 时 ， 禁 用 ipbtables 或 者 打开 对 vrrp 协 议 的 支持 。 


“LVS 集群 中 的 负载 均衡 器 ， 推 荐 使 用 16GB 及 以 上 内 存 ， 同 时 采用 多 队列 网 卡 提高 网 卡 知 吐 量 减少 处 理 延 时 。 


“LVS 集 群 中 的 后 端 服务 器 ， 根 据 IO 密集 型 和 CPU 密集 型 2 类 ， 可 以 分 别 使 用 RAID10、SSD 及 高 频 多 核 CPU 来 优化 。 


最 佳 实践 23: 多 组 LVS 设 定 注意 事项 


有 些 业 务 需求 情况 下 ， 需 要 在 同一 个 外 网 网 段 里 面 配置 2 组 或 者 2 组 以 上 的 LVS 集 群 ， 那 么 在 这 种 多 组 LVS 集 群 的 设 定 下 ， 有 几 个 需要 特别 注意 的 事项 。 


首先 来 看 一 下 负载 均衡 器 之 间 高 可 用 用 到 的 vrrp 协 议 包 的 内 容 (文件 : LVS_lvs2.VRRP.pcap，Frame 1) ， 如 图 4-8 所 示 。 


: bytes on wire bytes captured 
] Etleruek II, Src: 78:2b:cb:64:98:22 (78: 2b:cb:64:98:a2), Dst: 01:00:5e:00:00:12 (01:00:5e:00:00:12) 
Internet Protocol Version 4, Src: 10.1.6.28 (10.1.6.28), Dst: 224.0.0.18 (224.0.0.18) 
3 Virtual Router Redundancy Protocol 
8 Version 2, Packet type 1 (Advertisement) 
Virtual Rtr ID: 52 
Priority: 100 (Default priority for a backup VRRP router) & 


Addr Count: 1 

Auth Type: Simple Text Authentication [RFC 2338] / Reserved [RFC 3768] (1) 
Adver Int: 1 

Checksum: O0xB5be [correct] 

IP Address: 10.1.6.18 QU-L rm €) 

Authentication string: '4mE8jR' 


4-8. VRRP 协议 包 内 容 


人 @ 是 虚拟 路 由 器 的 ID， 这 个 在 相同 组 的 LVS 集 群 里 面 ， 必 须 设置 为 一 致 ， 不 同 组 LVS 集 群 里 面 必须 不 同 。 


食 是 优先 级 ， 对 应 state 为 MASTER 的 设置 值 必须 比 对 应 state 为 BACKUP 的 设置 值 高 。 


会 是 虚拟 IP 地 址 ， 不 同 组 LVS 集 群 不 


可 


售 是 同一 组 LVS 里 面 认 证 的 密 钥 ， 同 一 组 内 必须 相同 。 不 同 组 建议 采用 不 同 的 值 。 


在 运 维 业务 中 ， 曾 经 发 生 过 因 新 上 的 LVS 集 群 采用 了 和 原 LVS 集 群 里 面 虚拟 路 由 器 相同 ID 并 且 处 于 同一 个 网 段 导 致 原 业务 出 现 故障 的 问题 。 


最 佳 实践 24: 注意 网 卡 参数 与 MTU 问 题 


MTU 的 原理 


MTU (Maximum Transmission Unit， 最 大 传输 单元 ) 是 指 一 种 通信 协议 的 某 一 层 上 面 所 能 通过 的 最 大 数据 包 大 小 (以 字 节 为 单位 ) 。 最 大 传输 单元 这 个 参数 通常 与 通信 接口 有 关 (网 络 接口 卡 、 串 


口 等 ) 。 


以 以 太 网 传送 IPv4 报 文 为 例 。MTU 表 示 的 长 度 包 含 IP 包 头 的 长 度 ， 如 果 IP 层 以 上 的 协议 层 发 送 的 数据 报 文 的 长 度 超过 了 MTU， 则 在 发 送 者 的 IP 层 将 对 数据 报 文 进行 分 片 ， 在 接收 者 的 IP 层 对 接收 到 的 分 
片 进行 重组 。 


这 里 举 一 个 具体 的 例子 说 明 IP 包 分 片 的 原理 。 以 太 网 的 MTU 值 是 1500 bytes， 假 设 发 送 者 的 协议 高 层 向 IP 层 发 送 了 长 度 为 3008 bytes 的 数据 报 文 ， 则 该 报 文 在 添加 20 bytes 的 IP 包 头 后 IP 包 的 总 长 度 是 
3028 bytes， 因 为 3028>1500， 所 以 该 数据 报 文 将 被 分 片 ， 分 片 过 程 如 下 。 


(1) 首先 计算 最 大 的 IP 包 中 IP 净 荷 的 长 度 =MTU-IP 包 头 长 度 =1500-20=1480 bytes, 


(2) 然后 把 3028 bytes 按 照 1480 bytes 的 长 度 分 片 ， 将 要 分 为 3 片 ，3028=1480+1480+68。 


(3) 最 后 发 送 者 将 为 3 个 分 片 分 别 添加 IP 包 头 ， 组 成 3 个 IP 包 后 再 发 送 ，3 个 IP 包 的 长 度 分 别 为 1500 bytes、1500 bytes 和 88 bytes. 


从 以 上 分 片 例子 可 以 看 出 第 一 、 二 个 分 片 包 组 成 的 IP 包 的 长 度 都 等 于 MTU， 即 1500 bytes, 


案例 解析 


下 面 从 一 个 案例 说 起 LVS 与 MTU 的 问题 。 


某 日 ， 某 游戏 项 目 反馈 : 有 一 台北 京 电 信 通 服务 器 往 sSo0d 上 传 文件 慢 。 如 图 4-9 所 示 ， 红 框 中 时 间 差 值 变 是 上 传 所 花费 的 时 间 ， 可 以 看 到 有 将 近 8 秒 。 


D:stestcurl»echo 17:22:85.92 
17:22:85.92 


D:*testcurl»5curl -F "fsQ8nisc.zip" 


18BB8&e 73pqg&s 1g 7dicf 769fc49ca126f 3 
BiO1LJ92'7T5bU4t9t931 i httpz//imq.d 
D:*testcurl»echo 17:22:13.14 
17:22:13.14 


图 4-9 ”上传 请 求 的 时 间 消 耗 示意 图 


sood 是 一 套 分 布 式 文件 存储 系统 ， 主 要 应 用 范围 是 小 文件 存储 。 支 持 高 可 用 、 动 态 添加 节点 等 功能 。 它 的 系统 架构 图 如 图 4-10 所 示 。 


虚拟 IP: 


et 128.45 


Pr 
aiak 123.38 iii 128.42 fg 
eu 128.39 aTi. 123.44 


存储 节点 索引 服务 器 LVS 


图 4-10 sood 架 构图 


10.96.240.31-36 


收 到 反馈 后 ， 运 维 人 员 马 上 针对 系统 各 结 点 进行 检查 。 
“LVS 服 务 器 : Keepalived 工 作 正常 、 日 志 无 异常 。 
' sood 索 引 服 务 器 : apache 和 sood 索 引 程 序 工作 正常 、 日 志 无 异常 。 


.存储 服务 器 : sood 存 储 程序 工作 正常 。 


应 用 层面 没有 发 现任 何 异 常情 况 ， 初 步 怀疑 是 网 络 问题 造成 的 延 时 。 分 别 在 LVS、Web 及 Client 服 务 器 上 同时 抓 包 ， 发 现 以 下 几 个 现象 。 


现象 一 (文件: LVS LoadBalancer MTU.pcap, Frame 29, 30) : LVS 收 到 的 数据 长 度 2920 ( 见 图 4-11 中 国 所 示 ) 超过 MTU，LVS 给 Client 发 了 一 个 ICMP 包 要 求 分 片 〈 见 图 4-11 中 灸 、 鲜 所 示 ) , 


如 图 4-11 所 示 。 


= Frame 29: 2974 bytes on wire (23/92 bits), 96 bytes captured (768 bits) 
: Ethernet II, Src: 00:23:ea:72:9c:44 (00:23:6a:72:9c:44), Dst: 00:e0:81:d2:99:57 (00:e0:81:d2:99:57) 
* Internet Protocol Version 4, Src: ememmme .77 .1/9 (op 77.179), Dst: EE. 128.45 (NER 175.45) 


= Transmission Control Protocol, Src Port: 27878 (27878), Dst Port: BO (80), Seq: 3309858650, Ack: 2329852753, Len: 2920 e 
Source port: 27878 (27878) = 


Destination port: 80 (80) 
[stream index: 0] 
Sequence number: 3309858650 
[Next sequence number: 3309861570] 
Acknowledgment number: 2329852753 
Header length: 20 bytes 
Flags: 0x010 (ACK) 
Window size value: 7975 
[Calculated window size: 7975] 
[window size scaling factor: 1] 
s Checksum: 0x?b01 [unchecked, not all data available] 
= [SEQ/ACK analysis] 
» Hypertext Transfer Protocol 
[Packet size limited during capture: HTTP truncated] 


s Frame 30; 590 bytes on wire (4720 bits), 96 bytes captured (768 bits) 
Ethernet II, Src: 00:e0:81:d2:99:57 (00:e0:81:d2:99:57), Dst: 00:23:ea:72:9c:44 (00:23:ea:72:9c:44) 
Internet Protocol version 4, Src: dd 125 45 lan 125 25), Dst: di 77.179 (GEENEES 77 175) 
Internet Control Message Protocol 
Type: 3 (Destination unreachable) €) 
Code: 4 (Fragmentation needed) 
Checksum: Qx76b6 
MTU of next hop: 1500 
s Internet Protocol version 4, Src: gb. 77.170 (duum; 77.179), Dst: QUON .128.45 awrate. 128.25) 
| Transmission Control Protocol, Src Port: 27878 (27878), Dst Port: 80 (80), Seq: 3309858650, Ack: 2329852753 
Source port: 27878 (27878) 
Destination port: 80 (80) 
Sequence number: 3309858650 
[Stream index: 0] 
Sequence number: 3309858650 
Acknowledgment number: 2329852753 
Header length: 20 bytes 
@ Flags: 0x010 (ACK) 
window size value: 7975 
[calculated window size: 7975] 
[window size scaling factor: 1] 
© Checksum: O0x2b01 [unchecked, not all data available] 


图 4-11 LVS 上 发 送 ICMP MTU 过 大 反馈 


现象 二 (文件 : LVS Client MTU.pcap, Frame 364, 488) : Client 收 到 ICMP 包 (时 间 为 图 4-12 中 人 @ 所 示 ， 内 容 为 图 4-12 中 人 全、 全 所 示 ) 后 ， 过 了 3.8s (时 间 为 @ 所 示 ) 才 进行 重 传 ， 如 图 4-12 所 


364 2012-10-24 17:19:50.693260000 GM Tp 25.415 im 77.179 ICMP 590 Destination unreachable (Fragmentation needed) 
‘I » J 
Œ Frame 364: 590 bytes on wire (4720 bits), 590 bytes captured (4720 bits) on interface 0 
x Ethernet II, Src: 38:22:4d6:31:83:00 (38:22:d6:31:83:00), Dst: 00:e0:81:d7:9e:eb (00:e0:81:d7:9e:eb) 
1 Internet Protocol Version 4, Src: MEER 125.25 (SS 125.45), Dst: wp 77,179 Gnade 7.175) 
- Internet Control Message Protocol 
Type: 3 (Destination unreachable) e 
Code: 4 (Fragmentation needed) €) 
Checksum: 0x76b6 [correct] 
MTU of next hop: 1500 
* Internet Protocol Version 4, Src: diede. 7.1/0 (dvs //. 1/2), Dst: edit 128.45 EIER 128.45) 


æ Transmission Control Protocol, Src Port: 27878 (27878), Dst Port: 80 (80), Seq: 3309858650, Ack: 2329852753 
œ Hypertext Transfer Protocol 


488 2012-10-24 17:19:54.462614000 人 d 77.170 esemme 128.45 TCP 1514 [TCP S e [TCP segment of a reassembled PDU] 
r —— — 

* Frame 488: 1514 bytes on wire (12112 bits), 1514 bytes captured (12112 bits) on interface 0 

* Ethernet II, Src: 00:e0:81:d7:9e:eb (00:e0:81:d7:9e:eb), Dst: 38:22:d6:31:83:00 (38:22:d6:31:83:00) 

+ Internet Protocol Version 4, Src: qm" 77.179 (pp. 77.170), Dst: dili 125.45 —— 128,45) 

s Transmission Control Protocol, Src Port: 27878 (27878), Dst Port: 80 (80), Seq: 3309858650, Ack: 2329852753, Len: 1460 


D 


图 4-12 ”Client 上 的 TCP 重 传 现象 
接 下 来 来 看 下 Client 上 和 LVS 上 的 数据 包 的 序列 号 Sequence) 情况 。 


Client 上 (文件 : LVS Client MTU.pcap, Frame 361) 的 序列 号 如 图 4-13 中 全 所 示 。 


m Frame 361: 1514 bytes on wire (12112 bits), 1514 bytes captured (12112 bits) on interface 0 
|) Ethernet I1, Src: 00:e0:81:d7:9e:eb (00:e0:81:d7:9e:eb), Dst: 38:22:4d6:31:83:00 (38:22:d6:31:83:00) 
m Internet Protocol Version 4, Src: dme. 77.179 WEE. 77.179), Dst: diim . 123.45 EE 128.45) 
ld Transmission Control Protocol, Src Port: 27878 (27878), Dst Port: 80 (80), Seq: 3309858650, Ack: 2329852753, Len: 1460 
Source port: 27878 (27878) 
Destination port: 80 (80) 
[Stream index: 4] 
Sequence number: 3309858650 e 
[Next sequence number: 330986011016) 
Acknowledgment number: 2329852753 
Header length: 20 bytes 
4 Flags: 0x010 (ACK) 
window size value: 7975 
[calculated window size: 7975] 
[window size scalina factor: 1] 


图 4-13 Client 上 发 送 的 数据 包 的 序列 号 


LVS 上 收 到 的 序列 号 (文件 : LVS LoadBalancer MTU.pcap, Frame 29) 如 图 4-14 所 示 。 


Frame 29: 2974 bytes on wire (23792 bits), 96 bytes captured (768 bits) 
© Ethernet II, Src: 00:23:ea:72:9c:44 (00:23:€ca:72:9c:44), Dst: 00:e0:81:d2:99:57 (00:e0:81:d2:99:57) 
Internet Protocol Version 4, Src: dG£EENEGG. //.]/9 (Gbps 77,179), Dst: GNMEMARES. 128,45 (umm 128.45) 
Transmission Control Protocol, Src Port: 27878 (27878), Dst Port: 80 (80), Seq: 3309858650, Ack: 2329852753, Len: 2920 
Source port: 27878 (27878) 
Destination port: 80 (80) 
[stream index: 0] 
Sequence number: 3309858650 69 
[Next sequence number: 3309861570169 
Acknowledgment number: 2329852753 
Header length: 20 bytes 
3 Flags: 0x010 (ACK) 
Window size value: 7975 
[Calculated window size: 7975] 
[window size scaling factor: 1] 
xz Checksum: Ox2b01 [unchecked, not all data available] 
a [SEO/ACK analysis] 
* Hypertext Transfer Protocol 


图 4-14 LVS 上 收 到 的 数据 包 的 序列 号 


上 图 分 别 为 Client 和 LVS 上 ， 请 求 分 片 的 CMP 包 之 前 发 送 和 收 到 的 数据 包 ， 可 以 看 到 ，Sequence Number 相 同 的 两 个 包 (图 4-13 中 的 @ 和 图 4-14 中 的 @) ， 长 度 却 不 同 ， 下 一 个 包 的 Sequence 
Number 也 不 同 (图 4-13 中 的 @ 和 图 4-14 中 的 全 ) 。 说 明 在 接收 端 ， 将 两 个 数据 包 进 行 了 合并 操作 ， 而 合并 后 的 数据 包 长 度 超过 了 MTU。 


再 来 看 Client 服 务 器 上 的 这 个 包 (文件 : LVS Client MTU.pcap, Frame 362) ， 很 明显 这 个 Sequence Number 为 3309860110 (4-1540) 的 包 是 上 个 Sequence Number 为 3309858650 的 包 
的 后 续 ， 而 到 了 LVS 服 务 器 上 ， 这 两 个 包 被 合并 了 。 长 度 也 刚好 吻合 (1460 + 1460 = 2920) 。 


Client 发 送 的 连续 2 个 TCP 包 的 序列 号 分 别 是 3309858650 (图 4-14 中 的 @) 和 3309860110 (图 4-15 中 的 @) , Next sequence number 是 3309861570 (图 4-15 中 的 合 ) 。 正 好 等 于 LVS 上 收 到 的 序列 
号 3309858650 (图 4-13 的 @) ，Next sequence number 是 3309861570 (图 4-13 中 的 @) 。 


ik: 需要 在 Wireshark 配 置 中 ， 将 Relative Sequence Number 的 勾 选 去 掉 。 这 样 才能 在 Client 和 LVS 服 务 器 上 找 出 相对 应 的 数据 包 ， 如 图 4-16 所 示 。 


S), p 
Ethernet 3 IL, Sp: 100: e0:81:d/:9e:eb (00: e0:81: d: ue: eb), Dst: 38:22: x 31:83:00 (38:22:d6:31:83:00) 
[rS ee Protocol version 4, src: deme» 77.170 FQ 77.179), Dst: im 128.45 EEUU 128 45) 
日 Transmission Control Protocol, Src Port: 27878 (27878), Dst Port: 80 (80), Seg: 3309860110, Ack: 2329852753, Len: 1460 
Source port: 27878 (27878) 
Destination port: 80 (80) 
[Stream index: 4] 
Sequence number: 3309860110 € 
[Next sequence number: 33098615701) 
Acknowledgment number: 2329852753 
Header length: 20 bytes 
a Flags: 0x010 (ACK) 
window size value: 7975 
[Calculated window size: 7975] 
[Window size scaling factor: 1] 
3) Checksum: 0xac4e [validation disabled] 


图 4-15 Client 上 发 送 的 362 号 数据 包 的 序列 号 


TAU -Transmasson Control Protocol 
TCAP Show TCP summery in protocol tree: 


Valcste the TCP checksum f possis: 
TCPENCAP 


TDS 
Teredo AnaWze TCP sequence numbers: 


Allow subdssector to reassemble TOP streams: 


tetra Rebtve sacuence numbers: 
TFTp 
TIME 
TI9C 


Track number of bytes n ftoht: 
Calculate conversation timestamps: 


Tey heurstic suh-disectors first: 


Token-Ring Ignore TC? Timestamps m summary: 


TPKT 
TPNC? 
TTE 

UA 
UASIP 
UANUDP 
Uc 
UDP 
UDPlre 
ULP 


Do not cal subdissactars far error packets; 


图 4-16 ”Wireshatk 取 消 设置 相对 序列 号 
到 了 这 里 ,解决 上 传 慢 的 问题 已 经 有 了 眉目 ， 解 决 问题 有 以 下 两 个 方向 。 
: 加 快 Client 收 到 ICMP 请 求 分 片 后 的 响应 速度 。 
“ 禁止 LVS 服 务 器 合并 数据 包 的 操作 ， 以 避免 发 送 ICMP 请 求 分 片 。 
对 于 第 一 种 方案 ， 进 行 了 大 量 测试 ， 发 现 Linux 服 务 器 对 这 类 请 求 响应 速度 非常 快 ，Windows 服 务 器 则 参差 不 齐 ， 有 的 快 ， 有 的 慢 。 非 常 不 可 控 ， 而 且 短 时 间 内 也 无 法 查 明 原 因 。 


对 于 第 二 种 方案 ， 合 并 操作 是 和 网 卡 、 内 核 的 特性 有 关 。 


高 速 网 卡 设备 不 仅 可 以 自动 计算 数据 包 的 校 验 和 ， 而 且 可 以 根据 不 同 的 协议 自动 对 数据 包 进行 分 片 。 由 于 MTU 的 限制 ， 原 先 只 能 通过 IP 协 议 对 大 的 数据 包 进 行 分 片 ， 现 在 网 卡 设备 硬件 本 身 就 可 以 分 
片 ， 并 自动 计算 出 校 输 和 。 在 较 新 的 Linux 内 核 中 ， 也 加 入 了 类 似 的 功能 ， 通 过 内 核 来 分 片 而 不 是 协议 栈 。 同 时 ， 在 接收 处 理 方面 ， 也 有 一 些 对 应 的 功能 ， 可 以 合并 数据 包 ， 接 收 大 的 数据 包 。 图 4-17 所 示 为 
某 网 卡 的 参数 设置 。 


[zoocan]j-240-44 ~]# ethtool -k ethO 
Offload parameters for ethO0: 
Cannot get device udp large send offload settings: Operation not supported 


rx-checksumming: on 
tx-checksumming: on 


Scatter-gather: on 

tcp segmentation o 

udp fragmentation offload: off 
generic segmentation offload: off 
generic-receive-offload: on 


447. 网 卡 参 数 获取 


这 4 个 参数 就 是 合并 操作 最 主要 的 参数 了 。 从 上 到 下 缩写 依次 为 TSO、UFO、GSO、GRO。 


UFO 是 专门 针对 UDP 协议 的 ， 使 用 了 这 个 特性 ， 用 户 层 就 可 以 发 送 大 的 数据 包 (最 大 长 度 是 64KB) ， 而 不 需要 由 IP 协 议 来 分 片 。UFO 与 TSO、GSO 没 有 任何 的 联系 ， 但 是 却 需要 tx-checksumming 和 
scatter-gather 这 两 个 特性 的 支持 。 遗 憾 的 是 ， 现 在 还 没有 看 到 有 网 卡 支持 UFO。 所 以 ， 默 认 情况 下 ， 该 功能 的 状态 是 off。 当 前 UFO 被 应 用 在 虚拟 设备 (比如 虚拟 的 bridge 设 备 、bond 设 备 ) E. 


TSO 是 专门 针对 TCP 协 议 的 ， 与 UFO 一 样 ， 使 用 了 这 个 特性 ， 用 户 层 就 可 以 发 送 大 的 数据 包 。TSO 的 启用 也 需要 tx-checksumming 和 scatter-gather 这 两 个 特性 的 支持 。 


GSO 是 针对 所 有 协议 而 设计 的 。 但 是 ， 与 UFO、TSO 不 同 的 是 ， 分 片 的 动作 不 是 硬件 来 完成 的 ， 而 是 以 软件 的 方式 来 完成 的 〈 即 内 核 完成 ) 。 从 用 户 层 的 角度 看 ， 用 户 仍然 是 可 以 发 送 大 数据 包 。GSO 


与 TSO、UFO 没 有 任何 的 联系 ， 同 样 需要 tx-checksumming 和 scatter-gather 这 两 个 特性 的 支持 。 


GRO 是 针对 网 络 接受 包 的 处 理 的 ， 并 且 只 是 针对 NAPI 类 型 的 驱动 ， 因 此 如 果 要 支持 GRO， 不 仅 要 内 核 支持 ， 而 且 驱 动 也 必须 调用 相应 的 接口 ，GRO 类 似 TSO， 可 是 TSO 只 支持 发 送 数据 包 ， 这 样 TCP 
层 大 的 段 会 在 网 卡 被 切 包 ， 然 后 再 传递 给 对 端 ， 而 如 果 没 有 GRO， 则 小 的 段 会 被 一 个 个 送 到 协议 栈 ， 有 了 GRO 之 后 ， 就 会 在 接收 端 做 一 个 反 向 的 操作 (相对 于 TSO) 。 也 就 是 将 TSO 切 好 的 数据 包 组 合成 大 
包 再 传递 给 协议 栈 。 


经 过 上 述 介绍 ， 可 知 合并 数据 包 的 关键 参数 就 是 GRO ， 举 试 将 该 参数 设 off。 使 用 的 命令 如 下 : 


命令 为 ethtool -K eth0 gro off (-k 是 查看 参数 、-K 是 设置 参数 ) 


之 后 测试 ， 上 传 速度 很 快 很 和 谐 。 再 经 过 抓 包 分 析 ， 果 然 ICMP 请 求 分 片 消失 ， 也 没有 之 前 所 描述 的 数据 包 合 并 现象 。 


在 ip_vs 模 块 源 代码 中 ， 可 以 看 到 有 MTU 检 测 的 相关 代码 ， 当 DF 标 志 为 1 且 len 超 过 MTU 时 ， 发 送 ICMP_FRAG_NEEDED。 


网 卡 的 参数 可 能 会 影响 到 LVS 的 正常 工作 ， 在 上 线 前 需要 进行 多 次 测试 ， 以 验证 可 行 性 。 


最 佳 实践 25: LVS 监 控 要 点 
性 能 采集 


对 LVS 集 群 的 性 能 采集 ， 可 以 通过 以 下 方法 。 


1) ip_vs 相 关 的 数据 ， 主 要 是 ip_vs 和 ip_vs_stats。 如 下 所 示 : 


# cat /proc/net/ip vs 
IP Virtual Server version 1.2.1 (size-4096) 
Prot LocalAddress:Port Scheduler Flags 
-» RemoteAddress:Port Forward Weight ActiveConn InActConn 
TCP 0A010612:0050 wrr persistent 60000 FFFFFFFF 


-> 0A01062C:0050 Route 10 0 O ”#0A01062C 为 16 进 制 表示 的 后 端 服 务 器 ， 获 取 ActiveConn 进 行 绘图 。 
-> 0A010615:0050 Route 10 0 0 
# cat /proc/net/ip vs stats 

Total Incoming Outgoing Incoming Outgoing 
Conns Packets Packets Bytes Bytes 
16 178 0 1D093 0 
Conns/s Pkts/s  Pkts/s Bytes/s Bytes/s 
0 0 0 


2) 通过 Zabbix 自 定义 模板 ， 可 以 参考 https://share.zabbix.com/cat-app/high-availability-ha/linux-virtual-server-statictics 的 实现 方式 。 


可 用 性 监控 


在 LVS 的 可 用 性 监控 方面 ， 通 常 的 经 验 是 对 LVS 的 虚拟 IP 提 供 的 服务 进行 监控 ， 同 时 对 所 有 后 端 服 务 器 进行 可 用 性 监控 。 因 为 LVS 可 以 对 后 端 服务 器 进行 健康 检查 ， 那 么 后 端 服务 器 的 不 可 用 虽然 会 被 
LVS 从 服务 池 中 剔除 不 影响 客户 端 ， 但 这 个 情况 应 该 被 系统 管理 员 所 获知 ， 以 便 进行 根本 原因 分 析 ， 并 且 评 估 其 他 后 端 服务 器 的 压力 情况 。 


在 监控 层次 方面 ， 尽 量 采用 应 用 层 检查 的 方式 ， 如 Nagios 自 带 的 check_http 揪 件 ，Zabbix 的 Web Scenarios, 


最 佳 实践 26: LVS 排 错 步骤 推荐 


在 搭建 LVS 集 群 过 程 中 ， 或 者 在 维护 生产 环境 中 的 LVS 集 群 时 ， 可 能 遇 到 访问 LVS 集 群 出 现 异 常 的 情况 ， 那 么 需要 总 结 一 套 行 之 有 效 的 故障 排除 方法 。 结 合 实践 中 的 经 验 ， 有 以 下 思路 可 供 读者 参考 。 
1) ping 负 载 均衡 器 的 真实 |P 和 虚拟 |P。 判 断 网 络 连通 性 。 


2) 在 负载 均衡 器 上 ， 检 查 负载 均衡 器 和 后 端 服务 器 的 状态 ， 如 下 所 示 : 


# ip address show ethO 
2: eth0: «BROADCAST,MULTICAST,UP,LOWER UP» mtu 1500 qdisc pfifo fast qlen 1000 
link/ether 78:2b:cb:64:98:a2 brd ff:ff:ff:ff:ff:ff 
inet 10.1.6.28/24 brd 10.1.6.255 scope global ethO 
inet 10.1.6.18/32 scope global eth0 # 检 查 虚拟 IP 绑 定 成 功 
inet6 fe80::7a2b:cbff:fe64:98a2/64 scope link 
valid lft forever preferred lft forever 


# ipvsadm -ln --sort 
IP Virtual Server version 1.2.1 (size-4096) 
Prot LocalAddress:Port Scheduler Flags 


-> RemoteAddress:Port Forward Weight ActiveConn InActConn 

TCP 10.1.6.18:80 wrr persistent 60 
-» 10.1.6.21:80 Route 10 0 O # 观 察 此 处 后 端 服务 器 是 否 被 别 除 ， 同 时 确认 连接 数 
-> 10.1.6.44:80 Route 10 0 0 


# cat /var/log/messages* |grep -i keepalived 
Dec 1 14:00:39 lvsl Keepalived healthcheckers[3388]: Timeout connect, timeout server [10.1.6.21]:80. # 其 中 一 个 后 端 服务 器 故障 
Dec 1 14:00:39 lvsl Keepalived healthcheckers[3388]: Removing service [10.1.6.21]:80 from VS [10.1.6.18]:80 


3) 如 LVs 集 群 中 有 多 台 后 端 服务 器 ， 分 别 绑 定 hosts 进 行 测试 每 一 台 后 端 服务 器 ， 确 保 服务 正常 。 


4) 检查 后 端 服务 器 的 Arp 设 置 是 否 生效 ， 使 用 命令 如 下 : 


# sysctl -A |grep -E "arp ignore|arp announce" 


5) 检查 后 端 服务 器 上 的 虚拟 IP 绑 定 是 否 成 功 。 使 用 命令 如 下 : 


# ip address show lo 

1: lo: «LOOPBACK,UP,LOWER UP» mtu 16436 qdisc noqueue 
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 
inet 127.0.0.1/8 scope host lo 


inet 10.1.6.18/32 brd 10.1.6.18 scope global lo:0 
inet6 ::1/128 scope host 
valid lft forever preferred lft forever 


Qus 


在 我 们 的 商城 站 点 集群 中 ， 曾 经 发 生 过 新 上 一 台 后 端 Windows 2008 服 务 器 没有 配置 虚拟 IP 导 致 部 分 用 户 概 率 性 访问 失败 的 情况 。 


6) 主 从 负载 均衡 器 切换 故障 时 ， 需 要 首先 在 交换 机 上 确认 其 学 习 到 的 虚拟 IP 的 MAC 地 址 是 否 被 更 新 成 了 从 的 MAC 地 址 ， 使 用 命令 如 下 : 


show ip arp 


本 章 小 结 


LVS 是 负载 均衡 技术 中 4 层 负载 调度 的 一 个 重要 开源 实现 ， 是 一 种 成 熟 的 且 应 用 非常 普遍 的 技术 。 作 为 运 维 工程 师 和 系统 管理 员 ， 需 要 对 LVS 非 常熟 悉 ， 能 够 搭建 、 问 题 排查 和 调 优 。 


本 章 先 简要 介绍 了 LVS 的 3 种 转发 模式 ， 对 DR 模式 详细 分 析 其 中 包 转 换 的 真相 ,使 读者 有 一 个 直观 的 了 解 。 在 实战 精 讲 中 ， 对 于 搭建 LVS 的 高 可 用 集群 ， 采 用 分 步骤 的 方式 ， 对 其 中 需要 注意 的 项 目 予 以 
明确 的 解释 。 案 例 部 分 则 对 排 错过 程 进行 了 讲解 ， 和 希望 能 够 对 读者 在 问题 排查 方面 的 思路 起 到 启发 作用 。 


第 5 章 ”使 用 HAProxy 实 现 4 层 和 7 层 代 理 


在 上 一 章 中 ， 我 们 学 习 了 LVS 的 最 佳 实践 ， 本 章 将 重点 学 习 另 外 一 款 负 和 载 均 衡 软件 HAProxy 的 配置 ， 并 通过 案例 讲解 HAProxy 的 最 住 配 置 实践 和 注意 事项 。 


HAProxy 是 一 款 免费 开源 软件 ， 为 高 可 用 和 负载 均衡 提供 了 一 种 高 效 、 稳 定 的 解决 方案 ， 同 时 支持 TCP 和 HTTP 应 用 的 代理 。 它 特别 适合 大 流量 网 站 ， 支 撑 了 大 量 全 球 访问 最 频繁 的 网 站 。 在 过 去 几 年 
里 ， 它 成 为 开源 负载 均衡 方案 里 面 的 事实 标准 ， 目 前 在 大 部 分 主流 的 Linux 发 行 版 里 都 自 带 这 个 软件 。 


HAProxy 1.5 版 本 于 2014 年 发 布 ， 它 具有 以 下 特点 。 

: 原生 的 SSL 支持， 同时 支持 客户 端 和 服务 器 端的 SSL。 
- 支持 IPv6 和 UNIX 套 接 字 (sockets) o 

“ 支持 HTTP Keep-Alive。 


“ 支持 HTTP/1.1 压 缩 ， 以 节省 带宽 。 


ye 


竺 优化 的 健康 检查 机 制 (SSL, scripted TCP, check agent Jg 


:支持 7 层 负载 均衡 (内容 交换 ) 。 


最 佳 实践 27: 安装 与 优化 


HAProxy 的 安装 过 程 比较 简单 ， 参 照 如 下 命令 : 


wget http://www.haproxy.org/download/1.5/src/haproxy-1.5.15.tar.gz 
tar zxvf haproxy-1.5.15.tar.gz 

cd haproxy-1.5.15 

make TARGET-linux26 

make install 


前 一 小 节 讲 到 HAProxy 同 时 支持 对 TCP 和 HTTP 的 负载 均衡 ， 那 就 先 从 对 TCP 的 负载 均衡 开始 实践 。 


HAProxy TCP 负 载 均衡 


HAProxy 的 TCP 负 载 均衡 方式 ， 与 第 4 章 中 提 到 LVS 的 3 种 模式 均 不 同 。 

* HAProxy 不 要 求 后 端 服务 器 的 网 关 指 向 负载 均衡 器 的 内 网 地 址 ， 在 LVS-NAT 模 式 下 ， 该 配置 为 必须 。 
- HAProxy 不 要 求 后 端 服务 器 和 负载 均衡 处 于 同一 个 网 段 ， 在 LVS-DR 模 式 下 ， 这 个 是 前 提 条 件 。 

- HAProxy 不 要 求 后 端 服务 器 配置 IPIP 隧 道 ， 这 个 与 LVS-Tun 模 式 不 同 。 

: HAProxy 仅 仅 要 求 后 端 服务 器 能 够 在 网 络 上 连通 ， 可 以 跨 网 段 。 


本 次 配置 实现 的 架构 图 如 图 5-1 所 示 。 


Client 
10.1.6.4 


Webl 
eth0 10.1.6.21 
lo:0 10.1.6.18 


图 5-1 


在 HAProxy 安 装 完成 后 ， 启 有 


haproxy.cfg 进 行 配置 ， 如 下 所 示 : 


Ethernet Switch 


ethO 
10.1.6.28 


Web2 
eth0 10.1.6.44 
lo:0 10.1.6.18 


P 


HAProxy TCP 负 载 均衡 架构 


# cat /etc/haproxy/haproxy.cfg 
global 
daemon 
maxconn 50000 
defaults 
mode http 
listen www 
bind 0.0.0.0:80 
mode tcp # 注 意 ， 此 处 是 tcp 
server sl 10.1.6.21:80 # 后 端 服务 器 1 的 ITP 和 端口 
server s2 10.1.6.44:80 # 后 端 服务 器 2 的 ITP 和 端口 


在 测试 机 器 上 使 


curl 命 令 测试 ，2 台 后 端 服务 器 都 会 被 访问 到 。 使 用 命令 如 下 : 


# curl http://10.1.6.28/index.html 
webl 
# curl http://10.1.6.28/index.html 
web2 


HAProxy HTTP 负 载 均 衡 


HTTP 负 载 均衡 的 架构 图 和 图 5-1 相 同 ， 基 于 7 层 负载 均衡 ， 要 求实 现 以 下 功能 。 


- 请 求 域名 wwwl.example.com 的 访问 调度 到 web1。 
- 请 求 域名 www2.example.com 的 访问 调度 到 web2。 


本 案例 中 使 用 到 的 配置 文件 内 容 如 下 : 


global 

daemon 
maxconn 50000 

log 127.0.0.1 localO 
uid 99 
gid 99 
pidfile 
chroot 


/var/run/haproxy-private.pid 
/var/empty #chroot 增 加 系统 安全 性 


frontend public 


bind 0.0.0.0:80 
mode http # 注 意 ， 此 处 是 http 
log global 


timeout http-request 3s # 客 户 端 必须 在 3s 内 传输 完成 请 求 
timeout http-keep-alive 3s # 和 客户 端的 keep-alive 时 间 
timeout client 10s # 和 客户 端的 连接 保 活 超 时 

option httplog 

option forwardfor # 使 用 Xx-Forwarded-For 向 后 端 服务 器 传递 客户 端 来 源 IP 
option dontlognull 

option http-keep-alive # 使 用 keep-alive， 减少 对 后 端 服务 器 的 连接 数 


capture request header Host len 30 # 日 志 中 记录 Host 头 部 
capture request header Referer len 60 # 日 志 中 记录 Referer 

# 以 下 5 行 配置 ， 使 HAProxy 根 据 请 求 里 面 的 Host 字 段 进行 负载 均衡 
acl wwwl example com hdr beg (host) -i wwwl.example.com 
use backend backend wwwl example com if wwwl example com 
acl www2 example com hdr beg(host) -i www2 .example.com 
use backend backend www2 example com if www2 example com 
default backend backend wwwl example com 


HAProxyl 


backend backend wwwl example com 


mode http # 模 式 为 http 
balance source VIUA Euch IG 分 配方 法 
cookie appsession insert indirect preserve 


timeout http-request 3s 
timeout http-keep-alive 3s 
timeout connect 1s 
timeout server 10s 
timeout check S00ms 


option redispatch # 后 端 服务 器 故障 时 ， 重 新 分 发 请 求 

option http-keep-alive 

option httpchk GET /test.html HTTP/1.1\r\nHost:\ wwwl.example.com # 基 于 http 的 监控 检查 方法 
http-check expect string ok 

retries 2 


server wwwl example com srvl 10.1.6.21:80 cookie bl weight 8 check inter 2s rise 3 fall 5 
stats enable #HAProxy 状 态 监控 使 用 一 

stats scope 

stats uri /admin?stats 

stats realm Haproxy\ Statistics 

stats auth admin:6w5 xbkRGU 


backend backend www2 example com 


mode http 
balance Source 
cookie appsession insert indirect preserve 


timeout http-request 3s 
timeout http-keep-alive 3s 
timeout connect 1s 
timeout server 10s 
timeout check 500ms 


option redispatch 

option http-keep-alive 

option httpchk GET /test.html HTTP/1.1\r\nHost:\ www2.example.com 
http-check expect string ok 

retries 2 


server www2 example com srvl 10.1.6.44:80 cookie b2 weight 8 check inter 2s rise 3 fall 5 
stats enable ki E 

stats scope é 

stats uri /admin?stats 

stats realm Haproxy\ Statistics 

stats auth admin: 6w5_xbkRGU 


Oza 


上 默认 HAProxy 会 把 日 志 记 录 到 /var/log/messages 文 件 ， 本 例 配 置 中 它 单独 记录 到 /app/logs/haproxy.log 中 。 


配置 HAProxy 把 访问 日 志 记 录 到 /app/logs/haproxy.log 需 要 执行 以 下 操作 : 


# /etc/sysconfig/syslog 一 > SYSLOGD OPTIONS-"-r -m 0" 
4 /etc/syslog.conf ==> localO.* 

# chown nobody.nobody /app/logs/haproxy.log 

# /etc/init.d/syslog restart 


HAProxy 的 核心 配置 参数 


HAProxy 的 核心 配置 参数 如 下 : 
1) modet(tcp|http|health): 设置 该 实例 运行 的 协议 。 可 配置 的 值 有 如 下 几 个 。 
“tcp: 该 实例 运行 在 纯 TCP 模 式 ， 在 客户 端 和 服务 器 之 间 建 立 一 个 全 双 工 的 通道 ， 不 会 进行 任何 7 层 的 内 容 检查 ， 为 默认 值 。 在 负载 均衡 SMTP 和 SSH 等 时 ， 必 须 使 用 该 模式 。 


:http: 该 实例 运行 在 HTTP 模 式 ， 在 被 调度 到 后 端 服务 器 之 前 ， 客 户 端的 请 求 会 被 深度 分 析 ， 任 何不 符合 RFC 兼 容 的 请 求 都 被 拒绝 掉 。 可 以 实现 7 层 过 滤 、 处 理 、 内 容 交 换 。 在 这 种 模式 下 ，HAProxy 可 以 
发 挥 最 大 的 价值 。 


2) balance«algorithm» [«arguments»]: 负载 均衡 算法 。 

- <algorithm>: 是 在 选择 一 台 后 端 服务 器 时 使 用 到 的 算法 。 在 没有 其 他 可 以 作为 持久 连接 的 信息 时 ， 使 用 该 算法 进行 调度 。 一 般 用 到 以 下 有 的 几 个 。 
: roundrobin: 轮 询 。 

“ static-tr: 轮 询 ， 在 线 修改 权重 时 不 生效 。 

* leastconn: 最 小 连接 数 。 

“ first: 有 可 用 连接 的 服务 器 组 里 面 选 择 一 台 后 端 服务 器 (没有 达到 maxconn 的 ) 。 先 让 一 台 达 到 maxconn， 然 后 再 使 用 另外 一 台 没 达到 的 。 

“ source: 基于 客户 端 来 源 的 哈 希 。 


uri: 根据 afi 的 部 分 或 者 完整 ur 进行 哈 希 。 


3) acl: HAProxy 的 配置 里 面 ， 最 能 体现 灵活 性 的 地 方 是 ACL (Access Control List， 访 问 控制 链 ) ， 配 置 指令 是 acl|。ACL 的 使 用 ， 提 供 了 一 个 灵活 的 方法 ， 根 据 从 请 求 、 响 应 或 者 任何 环境 状态 里 面 
解析 出 来 的 内 容 来 实现 内 容 交换 和 做 决策 (比如 丢弃 、 变 换 或 转发 等 ) 。 


在 该 指令 (acl) 中 ， 我 们 可 以 指定 使 用 如 下 规则 予以 匹配 需要 特殊 处 理 的 请 求 : 


' 3 层 网 络 层 的 匹配 : dst，src 目 的 IP 和 源 IP。 
“4 层 TCP 的 匹配 : dst_port，src_port 目 的 端口 和 源 端口 。 


“7 层 应 用 层 信 息 匹配 : req.hdr ([<name>[，<occ>]] 匹配 HTTP 请 求 里 面 的 Header 字 段 。 例 如 req.hdr (Host) 则 匹配 HITTP 请 求 Header 里 面 的 Host 字 段 。 


HAProxy 的 会 话 保持 机 制 


会 话 保持 ， 是 指 在 应 用 中 ， 保 证 同一 个 客户 端的 连续 的 请 求 被 持续 地 调度 到 一 台 后 端 服务 器 的 过 程 。 在 以 下 业务 场景 中 需要 用 到 此 种 技术 。 


“ 购物 车 。 里 面 存 储 了 客户 端 已 确认 购买 的 商品 列表 ， 需 要 由 同一 台 后 端 服务 器 进行 处 理 。 


“ 访问 登录 后 的 内 容 。 接 受 客 户 端 登 录 的 服务 器 上 存储 了 其 临时 信息 作为 有 效 性 的 判断 ， 后 续 的 请 求 必须 调度 到 同一 台 后 端 服务 器 ， 否 则 可 能 被 其 他 后 端 服务 器 检测 为 未 登录 状态 。 
HAProxy 有 2 种 基本 的 方法 。 


“ 使 用 基于 源 地 址 的 负载 调度 算法 。 配 置 指令 是 : 


balance source 


“ 使 用 基于 cookie 的 技术 。 配 置 指令 是 : 


Cookie appsession insert indirect preserve 


这 个 是 什么 意思 呢 ? 举 个 例子 。 


假设 李 三 (客户 端 ) 第 一 次 到 派出 所 办 事 (需要 访问 业务 ) ， 到 了 办 事 大 厅 之 后 ， 引 导 员 (HAProxy) 根据 李 三 要 办 理 的 业务 内 容 ， 将 李 三 的 业务 提交 给 了 一 个 民警 X (后 端 服 务 器) ， 民 警 完成 后 把 


处 理 结果 给 了 引导 员 (处 理 结果 ) ， 引 导 员 看 到 李 三 第 一 次 来 ， 就 额外 给 了 李 三 一 个 令 牌 ， 是 一 个 字符 串 (cookie) ; 下 次 李 三 再 来 办 理 业务 的 时 候 ， 出 具 了 该 令 牌 ， 则 引导 员 可 以 迅速 判断 是 由 原来 的 民 
警 X 来 处 理 他 的 业务 。 


这 样 就 保持 了 会 话 的 连续 性 。 下 面 来 看 具体 指令 。 


appsession 是 指 HAProxy 在 第 一 次 响应 中 插入 到 后 端 服务 器 给 客户 端的 响应 里 面 的 cookie 名 字 。 


insert 是 指 如 果 HAProxy 没 有 在 用 户 的 请 求 中 发 现 该 cookie， 那 么 在 后 端 服务 器 给 客户 端的 响应 中 ， 它 会 加 入 该 cookie。 如 果 没 有 和 preserve 联 合 使 用 ， 那 么 后 端 服务 器 发 送 的 响应 中 若 有 相同 名 字 
(appsession) 的 cookie， 则 同名 cookie 会 被 删除 ， 这 就 可 能 导致 问题 。 


indirect 是 指 如 果 HAProxy 发 现 客户 端 已 经 有 该 名 字 (appsession) 的 cookie， 则 不 操作 ; 如 果 和 insert 合 用 ， 在 向 后 端 服务 器 转发 请 求 的 时 候 ， 会 把 该 名 字 (appsession) 的 cookie 删 除 ， 此 时 对 后 
端 服务 器 端 完全 透明 。 


preserve 与 insert 和 /或 indirect 合 用 ， 使 得 后 端 服务 器 发 送 该 名 字 (appsession) 的 cookie 时 不 被 HAProxy 删 除 或 者 蔡 换 掉 。 


理解 HAProxy 的 会 话 保持 机 制 ， 在 进行 排查 问题 时 具有 很 重要 的 作用 。 


下 面 看 一 下 效果 : 


4 wget -S --header-"Host: wwwl.example.com" http://10.1.6.18/index.html 
--2015-12-07 15:32:58-- http://10.1.6.18/index.html 
Connecting to 10.1.6.18:80http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... connected. 
HTTP request sent, awaiting responsehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 
HTTP/1.1 200 OK B 
Server: nginx/0.8.55 
Date: Mon, 07 Dec 2015 07:32:58 GMT 
Content-Type: text/html 
Content-Length: 5 
Last-Modified: Mon, 30 Nov 2015 09:53:22 GMT 
Accept-Ranges: bytes 
Set-Cookie: appsession-bl; path-/ # 注 意 该 行 ， 即 是 HAProxy 插 入 的 cookie。 作 为 客户 端 后 续 请 求 选择 后 端 服务 器 的 依据 
Connection: close 
Length: 5 [text/html] 
Saving to: "index.html" 


2015-12-07 15:32:58 (610 KB/s) - ^index.html' saved [5/5] 


HAProxy 中 ip_local_port_range 问 题 


前 面 的 章节 使 用 HAProxy 配 置 了 两 种 模式 的 负载 均衡 : TCP 和 HTTP。 在 这 两 种 模式 下 ， 都 需要 注意 负载 均衡 器 上 的 ip_local_port_range 问 题 。 


HAProxy 在 TCP 和 HTTP 负 载 均衡 时 ， 都 是 使 用 本 机 的 TCP 端 口 作为 源 端口 、 本 机 的 IP 地 址 作为 源 地 址 向 后 端 服务 器 进行 转发 。 此 时 ， 请 注意 单个 IP 可 以 使 用 到 的 TCP 源 端口 号 是 有 限制 的 ， 使 用 如 下 命 
令 可 以 看 到 当前 服务 器 配置 的 范围 : 


# sysctl net.ipv4.ip local port range 
net.ipv4.ip local port range = 32768 61000 # 单 个 IP 可 以 使 用 的 TCP 端 口 范 围 是 32768 到 61000 


在 代理 了 多 台 (如 20 台 以 上 ) 后 端 服务 器 并 且 并 发 访问 量 比较 大 时 ， 需 要 注意 该 参数 。 如 果 负 载 均衡 器 对 后 端 服务 器 发 起 的 TCP 连 接 数 过 多 ， 则 可 能 导致 负载 均衡 器 本 地 端口 用 光 (使 用 netstat 统 
计 ) ， 无 法 向 后 端 服务 器 建立 新 的 TCP 连 接 导致 负载 均衡 失败 。 


口 


Eid 


使 用 如 下 命令 修改 该 参数 的 值 ， 增 加 可 


echo 1024 61000 > /proc/sys/net/ipv4/ip local port range 


在 sysctl.conf 中 进行 修改 ， 以 便 在 服务 器 重启 后 依然 有 效 : 


# echo "net.ipv4.ip local port range-1024 61000" >> /etc/sysctl.conf 


HAProxy 后 端 服务 器 获取 客户 端 IP 


虽然 HAProxy 支 持 TCP 和 HTTP 的 负载 均衡 ， 但 这 2 种 方式 在 网 络 层面 ， 无 法 使 得 后 端 服 务 器 直接 获取 到 客户 端的 IP， 后 端 服务 器 上 看 到 的 来 源 IP 是 HAProxy 的 内 网 IP。 


后 端 服 务 器 的 程序 在 审计 需要 或 者 需要 对 来 源 IP 做 某 些 限制 时 ， 怎 么 才能 获取 到 客户 端的 IP 呢 ? 


通常 的 做 法 是 配置 如 下 命令 : 


option forwardfor 


此 时 ， 后 端 服务 器 可 以 使 用 分 析 请 求 中 的 X-Forwarded-For 字 段 来 解析 客户 端 来 源 IP。 


在 PHP 中 的 代码 如 下 : 


$ SERVER["HTTP X FORWARDED FOR"] 


TCP 负 载 均衡 和 HTTP 负 载 均衡 的 对 比 


对 于 同一 个 负载 均衡 的 需求 ， 配 置 HAProxy 分 别 使 用 TCP 和 HTTP 的 方式 进行 了 负载 均衡 转发 ， 从 结果 上 看 是 相同 的 ,但 在 HAProxy 内 部 的 实现 上 ， 是 否 完全 相同 呢 ? 


先 看 看 TCP 方 式 下 ，HAProxy 上 的 网 络 行为 (文件: HAProxy TCP.pcap, Frame 23, 24, 25) 如 图 5-2 所 示 。 


23 2015-12-07 11:18:37.607197 .1.6. 10.1.6.28 TCP 7445275 > 80 [SYN] 5eq-1744028054 win-5792 Len-0 M55-1460 SACK PERM-1 
24 2015-12-07 11:18: 37.607214 .1.6. 10.1.6.4 TCP 74 80 > 45275 [SYN, ACK] Seq-1155189840 Ack=1744028055 Win=5792 Len=0 N 


25 2015-12-07 11:18: 37.607337 1v6: 10.1.6.28 TCP 66 45275 > 80 [ACK] Seq-1744028055 Ack-1155189841 win-6144 Len-0 TSval- 
26 2015-12-07 11:18:37.607426 ;1. 6. 10.1.6.21 TCP 74 38321 > 80 [SYN] Seq=2017839478 Win-5840 Len=0 MSS-1460 SACK PERM-1 
27 2015-12-07 11:18:37.607433 E25. 10.1.6.28 HTTP 229 GET /index.html HTTP/1.1 


图 5-2 HAProxy TCP 负 载 均衡 网 络 行为 


客户 端 在 和 HAProxy 完 成 3 次 握手 (Frame 23, 24, 25) 建立 了 TCP 连 接 后 ，HAProxy 立 即 向 后 端 发 送 了 SYN 包 (Frame 26) ， 要 求 和 其 选择 的 后 端 服务 器 建立 TCP 连 接 。 


在 HTTP 模 式 下 ，HAProxy 上 的 网 络 行为 (文件: HAProxy HTTP.pcap, Frame 58, 59, 60) 如 图 5-3 所 示 。 


10. 
10. 
10. 
10. 
10. 
10. 
10. 
10. 


.28 74 60812 > 80 [SYN] Seq-3920281511 win-5840 Len-O 
4 : 74 80 > 60812 [SYN, ACK] Seq-1145375467 Ack-39202 
.28 66 60812 > 80 [ACK] Seq-3920281512 Ack-1145375468 
.28 236 GET /index.html HTTP/1.1 

.21 74 39442 > 80 [SYN] S5eq=397 3202573 winz5840 Len=0 
.28 74 80 > 39442 [SYN, ACK] Seq-3928626062 Ack-39732 
21 66 39442 > 80 [ACK] Seq-3973202574 Ack-3928626063 
.21 282 GET /index.html HTTP/1.1 


58 2015-12-07 11:53:05.719086 
59 2015-12-07 11:53:05.719103 
60 2015-12-07 11:53:05.719309 
61 2015-12-07 153:05.719330 


62 2015-12-07 11:53:05.719419 
63 2015-12-07 11:53:05.719646 
64 2015-12-07 11:53:05.719664 
65 2015-12-07 11:53:05.719704 
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图 5-3 HAProxy HTTP 负 载 均衡 网 络 行为 


客户 端 在 和 HAProxy 完 成 3 次 握手 (Frame 58, 59, 60) 建立 了 TCP 连 接 ， 客 户 端 发 送 了 TCP Data (Frame 61) ， 也 就 是 HTTP 请 求 后 ，HAProxy 才 开始 向 后 端 服务 器 发 送 SYN 包 (Frame 62) ， 要 
求 建立 TCP 连 接 。 


在 应 用 实践 中 ， 如 基于 HTTP 的 应 用 ， 一 般 建议 使 用 HTTP 模 式 进行 调度 ， 这 样 ， 可 以 对 后 端 服务 器 进行 更 精确 的 调度 ， 比 如 使 用 Host 头 部 、URI 规 则 等 ， 都 可 以 作为 调度 的 匹配 依据 。 


最 佳 实践 28: HAProxy+Keepalived 实 战 


以 上 的 章节 中 ， 我 们 学 习 了 单 台 HAProxy 进 行 负载 均衡 代理 的 实践 ， 本 节 使 用 Keepalived 配 合 HAProxy 构 架 高 可 用 的 负载 均衡 。 


架构 图 如 图 5-4 所 示 。 
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10.1.6.28 
Ethernet Switch 虚拟 IP 
10.1.6.18 
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HAProxy2 


10.1.6.38 


Webl Web2 


eth0 10.1.6.21 eth0 10.1.6.44 
lo:0 10.1.6.18 lo:0 10.1.6.18 


图 5-4 HAProxy+Keepalived 架 构图 


在 HAProxy2 上 配置 服务 HAProxy， 配 置 文件 和 HAProxy1 完 全 一 样 。 


在 HAProxy1 上 修改 keepalived.conf 文 件 ， 内 容 如 下 : 


global defs { 

router id NJCTC-LVS-28 # 在 HAProxy2 上 为 NJCTC-LVS-38 
} 
vrrp instance VI 1 

State MASTER i 

interface eth0 


virtual router id 52 #HAProxy2 上 配置 一 臻 
track interface { 

eth0 
l 
garp master delay 30 
priority 150 # 在 HAProxy2 上 为 100 
advert int 1 
authentication ( 

auth type PASS 

auth pass 4mE8jR 
l 
virtual CET { 

.6.18/32 dev eth0 # 虚 拟 IP 及 绑 定 的 网 卡 

} 


最 佳 实践 29: HAProxy 监 控 
性 能 采集 


对 HAProxy 的 性 能 采集 ， 可 以 通过 以 下 方法 进行 。 


1) 启用 status 状 态 报告 。 


stats enable #HAProxy 状 态 监控 使 用 
stats scope . 

stats uri /admin?stats 

stats realm  HaproxyN Statistics 
stats auth admin:6w5 xbkRGU 


2) 启用 socket 状 态 监 


在 global 配 置 部 分 加 入 : 


stats socket /tmp/haproxy.sock 


通过 socat 命 令 ， 可 以 看 到 文本 格式 的 状态 信息 : 


# echo "show stat" |socat /tmp/haproxy.sock stdio 


# pxname, svname, qcur, qmax, scur, smax, slim, stot, bin, bout, dreq, dresp, ereq, econ, eresp, wretr,wredis, status, weight, act, bck, chkfail, chkdown, lastchg, downtime, qlimit, pid, iid, sid, throttl 
public, FRONTEND, , ,0,0,2000,0,0,0,0,0,0, , , , , OPEN, ,, , , , , ,,1,2,0,, ,,0,0,0,0,,,,0,0, 0,0,0,0,,0,0,0,,,0,0,0,0,,,, ,,,, 
backend wwwl example com,wwwl example com srv1,0,0,0,0,,0,0,0,,0,,0,0,0,0,UP,8,1,0,0,0,229,0,,1,3,1,,0,, 2,0, ,0, L70K, 200,0,0,0,0,0,0,0,0,,,,0,0,,, ,,-1,HTTP content check matchec 
backend wwwl example com, BACKEND, 0,0,0,0,200,0,0,0,0,0,,0,0,0,0,UP, 8,1,0,, 0,229,0,,1,3,0,,0,,1,0, ,0,,,,0,0,0,0,0,0, ,,,,0,0,0,0,0,0, -1,,,0,0,0,0, 
backend www2 , example com, www2 : example | com srv1,0,0,0,0,,0,0,0,,0,,0,0,0,0,UP,8,1,0,0,0,229,0,,1,4,1,,0,,2,0,,0, L70K, 200,1,0,0,0,0,0,0,0,,,,0,0,, ,, ,-1,HTTP content check matchec 
backend www2 example com, BACKEND, 0, 0,0, 0, 200, 0,0,0,0,0,,0,0,0,0,UP, 8,1,0, ,0, 229, 0,,1, 4,0,,0,,1,0,,0,,,,0,0,0,0,0,0, ,,,,0,0,0,0,0,0,-1,,,0,0,0,0, 
输出 的 字段 较 多 ， 作 为 性 能 采集 ， 建 议 对 qcur (当前 队列 ) 和 scur (当前 会 话 数 ) 进行 收集 。 
3) 通过 Zabbix 自 定义 模板 ， 可 以 参考 https://github.com/anapsix/zabbix-haproxy 的 实现 方式 。 

可 用 性 监控 
在 HAProxy 的 可 用 性 监控 方面 ， 通 常 的 经 验 是 对 HAProxy 的 虚拟 IP 提 供 的 服务 进行 监控 ， 同 时 对 所 有 后 端 服务 器 进行 可 用 性 监控 。 


在 做 了 高 可 用 的 HAProxy 集 群 后 ，2 台 负载 均衡 器 上 ， 对 物理 IP 需 要 同时 加 入 可 用 性 探测 ， 否 则 可 能 无 法 获知 Keepalived 主 从 已 经 发 生 了 迁移 。 


在 监控 层次 方面 ， 尽 量 采 用 应 用 层 检查 的 方式 ， 如 Nagios 自 带 的 check_http 插 件 ，Zabbix 的 Web Scenarios 等 。 


最 佳 实践 30: HAProxy 排 错 步骤 推荐 


1) ping 负 载 均衡 器 的 真实 IP 和 虚拟 IP。 判 断 网 络 连通 性 。 


2) 在 HAProxy 上 ， 检 查 后 端 服务 器 的 连接 状态 ， 特 别 是 采用 和 haproxy.cfg 中 option httpchk 完 全 相同 的 方法 。 使 用 telnet 或 者 curl、wget。 


Oza 


在 我 们 的 实践 中 ， 曾 经 发 生 过 某 个 系统 管理 员 把 后 端 服务 器 上 用 于 健康 检查 的 页 面 testhtml (可 能 他 认为 没有 实际 用 途 ) 删除 ， 导 致 HAProxy 健 康 检 查 失败 把 所 有 后 端 服务 器 剔除 服务 队列 继而 引发 网 站 
不 可 用 的 情况 。 


3) 检查 HAProxy 的 访问 日 志 ， 观 察 是 否 有 除 状 态 码 200、301、302、404 之 外 的 情况 。 


4) 检查 HAProxy 和 后 端 服务 器 网 卡 流量 。 


本 章 小 结 


HAProxy 作 为 一 款 老 牌 的 负载 均衡 的 开源 软件 ， 在 2007 年 1 月 份 发 布 具有 7 层 负 载 均衡 (内容 交换 ) 功能 的 1.3.4 版 本 以 来 ， 成 为 众多 大 型 网 站 的 技术 选 型 方案 。 在 HAProxy 的 网 站 可 以 看 到 很 多 知名 的 公司 
会 使 用 该 软件 作为 整体 负载 均衡 系统 里 面 的 一 个 部 分 (参考 http://www.haproxy.org/they-use-it.html) ， 如 MaxCDN Stack Exchange 等 。 


HAProxy 能 同时 支持 4 层 和 7 层 负载 均衡 调度 ， 具 有 比较 广 的 应 用 场景 ; 并 且 可 以 使 用 灵活 的 ACL 来 匹配 各 种 应 用 的 特点 ， 加 以 控制 ， 如 丢弃 不 合法 请 求 以 保护 后 端 服务 器 、 对 慢 速 连接 的 处 理 以 保护 正常 
的 用 户 请 求 等 。 


通过 本 章 的 学 习 ， 和 希望 读者 可 以 掌握 HAProxy 这 一 款 软件 的 配置 和 最 佳 实践 ， 在 实际 的 工作 中 运用 。 


后 面 一 章 将 学 习 使 用 Nginx 进 行 负载 均衡 的 方案 。 


第 6 章 ”实践 Nginx 的 反 向 代理 和 负载 均衡 


在 上 一 章 中 ， 我 们 学 习 了 HAProxy 的 最 佳 实践 ， 本 章 将 重点 学 习 另 外 一 款 负 载 均衡 软件 Nginx 反 向 代理 与 负载 均衡 的 配置 ， 并 通过 案例 讲解 Nginx 的 最 佳 配置 实践 和 注意 事项 。 
那么 什么 是 反 向 代理 呢 ? 


先 看 看 什么 是 代理 (或 者 正 向 代理 ) 。 在 某 些 组 织 中 ， 为 了 节省 带宽 费用 ， 往 往 使 用 Squid Web Cache 等 代理 软件 ， 使 得 不 同 的 客户 端 访问 同一 个 静态 资源 时 能 够 直接 从 内 部 缓存 获取 ， 以 节省 公共 带 
宽 。 这 种 情况 下 使 用 的 是 正 向 代理 ， 一 般 需 要 在 客户 端 或 者 浏览 器 里 面 特殊 设置 。 


反 向 代理 (Reverse Proxying) 是 和 正 向 代理 (Proxying) 相对 的 概念 。 

为 了 提高 单个 服务 器 的 处 理 能 力 和 完 余 性 ， 往 往 在 某 组 服务 器 之 前 再 单独 搭建 一 台 代理 服务 器 ， 业 务 域 名 解析 到 该 代理 服务 器 上 ， 由 该 代理 服务 器 负责 向 后 端 转发 请 求 。 
反 向 代理 服务 器 有 如 下 特点 。 

“ 成 为 业务 的 统一 入 口 ， 对 业务 精细 化 控制 比较 方便 。 

“ 屏蔽 不 同 硬件 型 号 和 性 能 的 后 端 服务 器 ， 对 容 户 端 形成 一 致 的 访问 点 。 

“ 对 后 端 服务 器 健康 监控 ， 别 除 有 故障 的 节点 ， 对 客户 端 展示 稳定 的 接口 。 

“ 可 以 加 入 缓存 功能 等 ， 节 省 后 端 服务 器 的 计算 资源 。 


“ 加 速 不 同 地 域 的 网 络 访问 等 。 


Nginx 作 为 一 款 同 时 可 以 做 Web 服 务 和 反 向 代理 负载 均衡 的 软件 ， 它 在 全 球 前 100 万 个 活跃 站 点 中 的 使 用 率 近 几 年 逐步 增加 。 图 6-1 所 示 的 数据 来 自 


netcraft.com (http://news.netcraft.com/archives/2015/09/16/september-2015-web-server-survey.html) 。 
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图 6-1 Nginx 在 全 球 前 100 万 个 活跃 站 点 中 的 使 用 率 


最 佳 实践 31: 安装 与 优化 


Nginx 的 安装 过 程 比较 简单 ， 参 照 如 下 命令 : 


wget http://nginx.org/download/nginx-1.9.7.tar.gz 
tar zxvf nginx-1.9.7.tar.gz 
cd nginx-1.9.7 
-y install pcre pcre-devel 
./configure --prefix-/usr/local/nginx --with-pcre --with-http stub status module --with-http ssl module 
make 
make install 
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其 中 : 
--with-pcre 在 Nginx 添 加 对 正则 表达 式 的 支持 。 
--with-http_stub_status_module 添 加 对 状态 页 面 的 支持 。 


--with-http_ssl_ module 在 Nginx 添 加 对 https 站 点 的 支持 。 


以 下 实践 基于 图 6-2 所 示 的 架构 图 。 


eth0 
10.1.6.28 


Ethernet Switch 


Nginx] 


Webl Web2 
eth0 10.1.6.21 eth0 10.1.6.44 
lo:0 10.1.6.18 lo:0 10.1.6.18 


图 6-2 Nginx 反 向 代理 架构 图 
配置 Nginx 代 理 后 端 两 台 服 务 器 ， 配 置 文件 nginx.conf 内 容 如 代码 清单 6-1 所 示 。 


代码 清单 6-1 初始 Nginx 配 置 


user nobody; 
worker processes 8; 
worker cpu affinity 00000001 00000010 00000100 00001000 00010000 00100000 01000000 10000000; 


error log logs/error.10g; 
pid logs/nginx.pid; 


events ( 
use epoll; 
worker connections 10000; 


} 


http { 
include mime. types; 
default_type application/octet-stream; 


log format main "'$remote addr - $remote_user [$time local] "$request" ' 
'$status $body bytes sent "$http referer" ' 
'"Shttp user agent" "$http x forwarded for"'; 


sendfile on; 

tcp nopush on; 
keepalive timeout 60; 
gzip on; 


upstream www { 
server 10.1.6.21; 
server 10.1.6.44; 
l 
server ( 
listen 80; 
server name localhost; 
charset koi8-r; 
access log logs/host.access.log main; 
location / ( 
proxy set header Host $host; 
proxy set header X-Forwarded-For $proxy add x forwarded for; 
proxy connect timeout 3; MM T 
proxy_send timeout 3; 
proxy read timeout 3; 
proxy buffer size 256k; 
proxy buffers 4 256k; 
proxy busy buffers size 256k; 
proxy temp file write size 256k; 
proxy next upstream error timeout invalid header http 500 http 503 http 404; 
proxy max temp file size 128m; 
proxy pass http://www; 


Nginx 的 核心 配置 参数 
Nginx 的 核心 配置 参数 如 下 : 
- worker processes: 配置 多 少 个 工作 进程 ， 设 置 为 与 服务 器 核心 (core) 数量 相同 。 
“ worker_cpu_affinity (重要 优化 项 ) : 将 进程 与 CPU 绑 定 ， 提 高 了 Cpu Cache 的 命中 率 ， 从 而 减少 内 存 访问 损耗 ， 提 高 程序 的 速度 。 


' sendfile: 对 于 静态 大 文件 ， 启 用 sendfile 加 速 文件 读 取 。 


* tcp_nopush: 在 Linux socket 上 启用 TCP_CORK 选 项 ， 和 sendfile 合 用 ， 加 速 大 文件 读 取 。 
以 下 是 超时 相关 的 设置 。 
- client_header_timeout: 客户 端 必须 在 此 指定 的 时 间 内 把 请 求 的 header 传 输 完成 ， 请 设置 成 5s 或 以 下 值 。 对 于 抵挡 慢 速 攻击 有 作用 。 
- client body timeout: Nginx 2 次 连续 读 取 客户 端 请 求 体 的 超时 时 间 ， 请 设置 成 5s 或 以 下 值 。 
* keepalive timeout: 定义 保 活 时 间 ， 一 般 建议 是 60s。 
“ proxy. connect, timeout: Nginx 连 接 后 端 服务 器 的 超时 时 间 ， 请 设置 成 5s 或 以 下 值 。 
* proxy. send, timeout: Nginx 2 次 连续 向 后 端 服 务 器 发 送 请 求 的 超时 时 间 ， 请 设置 成 5s 或 以 下 值 。 


“ proxy_read_timeout: Nginx 2 次 连续 读 取 后 端 服 务 器 返回 的 超时 时 间 ， 请 设置 成 5s 或 以 下 值 。 


以 上 超时 时 间 ， 对 于 大 型 繁忙 网 站 是 最 重要 的 调 优 项 目 。 
请 参照 业务 实际 需求 按照 推荐 值 进行 微调 。 
Nginx 负 载 均衡 算法 
在 Nginx 中 ， 反 向 代理 的 负载 均衡 算法 有 以 下 3 种 。 
dei: 不 同 的 后 端 服务 器 按照 请 求 轮 询 访问 。 
“ 最 小 连接 数 : 下 一 个 请 求 被 转发 到 当前 活动 连接 数 最 小 的 服务 器 。 


“ IP 哈 希 : 基于 客户 端 IP 来 哈 希 ， 定 位 到 该 客户 端 需要 被 调度 到 的 后 端 服务 器 。 
Nginx Proxy 协 议 的 选择 


Nginx 反 向 代理 HTTP 协 议 时 ， 默 认 使 用 的 是 HTTP 1.0 去 后 端 服 务 器 获取 响应 内 容 ， 再 返回 给 客户 端 。 


HTTP 1.0 和 HTTP 1.1 的 一 个 重要 区 别 是 前 者 不 支持 HTTP Keep-Alive。 


以 最 佳 实践 26 中 的 配置 为 例 ， 使 用 webbench (http://home.tiscali.cz: 8080/~cz210552/webbench.html) 进行 压力 测试 时 可 以 看 到 在 Web1 服 务 器 上 : 


* netstat -n | awk '/^tcp/ {++state[$NF]} END (for(key in state) print key,"\t", state[key]]" 


TIME WAIT 23704 # 广 意 TIME_WRATT 值 非常 高 
FIN WAITI 18 
ESTABLISHED 18 


# netstat -an |more 
Active Internet connections (servers and established) 


Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN 
tcp 0 0 0.0.0.0:8649 0.0.0.0:* LISTEN 
tcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN 
tcp 0 0 10.1.6.21:80 10.1.6.28:52200 SYN RECV 
tcp 0 0 10.1.6.21:80 10.1.6.28:52201 SYN RECV 
tcp 0 0 0.0.0.0:38422 0.0.0.0:* LISTEN 
tcp 0 0 127.0.0.1:6010 0.0.0.0:* LISTEN 
0 0 10.1.6.21:80 10.1.6.28:53257 


tcp 
TIME WAIT $TIME _ WAIT 的 情况 


同时 在 Nginx1 的 服务 器 上 ， 看 到 有 如 下 的 报错 信息 ， 显 示 Nginx 连 接 后 端 服务 器 失败 : 


2015/12/08 11:24:34 [error] 2013740: *3293812 upstream timed out (110: Connection timed out) while connecting to upstream, client: 10.1.6.38, server: localhost, request: "GET / 


看 一 下 TIME_WAIT 状 态 的 产生 过 程 ， 如 图 6-3 所 示 。 


Client Server 


close 


(主动 关闭 )FIN_WAIT_1 


FIN M 


CLOSE_WAIT( 被 动 关闭 ) 


FIN WAIT 2 
z x close 


LAST ACK 
TIME WAIT 


ACK N-1 CLOSED 


图 6-3 TIME_WAIT 状 态 演进 


由 图 6-3 可 以 看 出 后 端 服务 器 主动 关闭 了 连接 ， 未 使 用 Keep-Alive。 


后 端 服务 器 主动 关闭 连接 的 动作 ， 是 由 Nginx1 的 特殊 HTTP Header 引 起 的 (文件 : Nginx proxy without Keep-Alive.pcap, Frame 15) ， 如 图 6-4 所 示 。 


12 2015-12-08 

13 2015-12-08 

14 2015-12-08 

15 2015-12-08 11:20:18.064141 
16 2015-12-08 11:20:18.064376 
17 2015-12-08 11:20:18.064391 
18 2015-12-08 11:20:18.064398 
19 2015-12-08 11:20:18.064443 
20 2015-12-08 11:20:18.064487 
23 2015-12-08 11:20:18.064655 
52 2015-12-08 11:20:18.066318 
53 2015-12-08 11:20:18.066533 


ra anir 3^ nno 323- n ecrccra 


74 32796 > 80 [SYN] Seq-1008479999 wi 
74 80 > 32796 [SYN, ACK] Seq-32519586 
66 32796 > 80 [ACK] seq-4008480000 Ad 
183 GET /index.html HTTP/1.0 

66 80 > 32796 [ACK] Seq-3251958644 Ad 
275 [TCP segment of a reassembled PDU] 
66 32796 > 80 [ACK] 5eq-4008480117 Ad 
71 HTTP/1.1 200 OK (text/html) 

66 32796 > 80 [FIN, ACK] 5eq-4008480 
66 80 > 32796 [ACK] 5eq-3251958859 Aq 
74 32798 > 80 [SYN] 5eq-2372793282 Wi 
74 BO > 32798 [SYN. ACK] Seq-35012459 
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Frame 15: 183 bytes on wire (1464 bits), 183 bytes captured (1464 bits) 

© Ethernet II, Src: 7/8:2b:cb:64:98:a2 (78:2b:cb:64:98:a2), Dst: 78:2b:cb:64:98:9f (78:2b:cb:64:98:9f) 

|; Internet Protocol Version 4, Src: 10.1.6.28 (10.1.6.28), Dst: 10.1.6.21 (10.1.6.21) 

© Transmission Control Protocol, Src Port: 32796 (32796), Dst Port: 80 (80), Seq: 4008480000, Ack: 3251958644, Len: 117 
zi 


a 
Host: 10.1.6.28\r\n 
X-Forwarded-For: 10.1.6. 4\r\n 
Connection: close\r\n 
User-Agent: WebBench 1.5Xr*n 
\r\n 


[HTTP request 1/1] 


图 6-4 HTTP 1.0 协 议 反 向 代理 时 Nginx 的 网 络 行为 


如 图 6-4 所 示 ，Nginx1 在 向 后 端 服务 器 请 求 时 使 用 了 HTTP 1.0 同 时 使 用 HTTP Header 的 Connection: Close 通 知 后 端 服务 器 主动 关闭 连接 。 


后 端 服 务 器 在 处 理 完 请 求 返 回 时 (文件: Nginx proxy without Keep-Alive.pcap, Frame 19) ， 发 送 了 如 下 的 数据 包 (TCP 的 flag 设 置 为 FIN， 在 应 用 层 设 置 为 “Connection: Close" ) ， 如 图 6-5 
所 示 。 


E Frame 19: 71 bytes on wire (568 bits), 71 bytes captured (568 bits) 

Ej Ethernet II, Src: 78:2b:cb:04:98:9f (78:2b:«b:64:98:9f), Dst: 78:2b:cb:64 
E Internet Protocol version 4, Src: 10.1.6.21 (10.1.6.21), Dst: 10.1.6.28 
Source port: 80 (80) 

Destination port: 32796 (32796) 

[stream index: 2] 

Sequence number: 3251958853 

[Next sequence number: 3251958858] 

Acknowledgment number: 4008480117 

Header length: 32 bytes 

window size value: 46 

[Calculated window size: 5888] 
[window size scaling factor: 128] 


由 Checksum: Oxa09c [validation disabled] 
Œ Options: (12 bytes), No-Operation (NOP), No-Operation (NOP), Timestamps 
& [SEQ/ACK analysis] 
TCP segment data (5 bytes) 
[2 Reassembled TCP Segments (214 bytes): $17(209), $19(5)] 


Server: nginx/0.8. 55NrNn 
Date: Tue, O8 Dec 2015 03:20:18 GMT\r\n 
Content-Type: text/htmlXrn 

Æ Content-Length: 5\r\n 
Last-Modified: Mon, 30 Nov 2015 09:53:22 GMT'r^n 
Connection: closeNrNr &) 
Accept-Ranges: bytes\r\T 
\r\n 


图 6-5 HTTP 1.0 协 议 反 向 代理 时 后 端 服务 器 的 网 络 行为 


这 样 会 导致 任何 一 个 客户 端的 请 求 都 在 后 端 服务 器 上 产生 一 个 TIME_WAIT 状 态 的 连接 。 


对 于 以 上 问题 ， 需 要 修改 Nginx 使 用 协议 HTTP 1.1 向 后 端 发 送 请 求 ， 同 时 支持 Keep-Alive。 


这 里 修改 Nginx 的 配置 ， 配 置 文件 如 代码 清单 6-2 所 示 。 


代码 清单 6-2 修改 后 的 Nginx 配 置 


user nobody; 
worker processes 8; 
worker cpu affinity 00000001 00000010 00000100 00001000 00010000 00100000 01000000 10000000; 


error log logs/error.log; 


pid logs/nginx.pid; 
events ( 

worker connections 10000; 
} 


http { 
include mime.types; 
default type application/octet-stream; 


log format main '$remote addr - $remote user [$time local] "$request" ' 
'$status $body bytes sent "$http referer" ' 
'"Shttp user agent" "$http x forwarded for"'; 


sendfile on; 

tcp nopush on; 
keepalive timeout 60; 
gzip on; 


upstream www { 

keepalive 50; # 必 须 配 置 ， 建 议 值 50-100。 

server 10.1.6.21; 

server 10.1.6.44; 

} 
server { 

listen 80; 

server name localhost; 

charset koi8-r; 

access log logs/host.access.log main; 

location / ( 
proxy http version 1.1; # 后 端 配置 支持 HTTP 1.1; 必需 。 
proxy set header Connection ""; # 后 端 配置 支持 HTTP 1.1; 必需 。 
proxy set header Host $host; 
proxy set header X-Forwarded-For $proxy add x forwarded for; 
proxy connect timeout 3; 
proxy send timeout 3; 
proxy read timeout 3; 
proxy buffer size 256k; 
proxy buffers 4 256k; 
proxy busy buffers size 256k; 
proxy temp file write size 256k; 
proxy next upstream error timeout invalid header http 500 http 503 http 404; 
proxy max temp file size 128m; 
proxy pass http://www; 


通过 对 比 代码 清单 6-1 和 代码 清单 6-2， 可 以 看 出 ， 设 置 Nginx 代 理 使 用 HTTP 1.1 和 Keep-Alive 时 ， 必 须要 增加 3 个 参数 : keepalive 50, proxy http version 1.1, proxy set header Connection"", 


此 时 通过 分 析 网 络 行为 可 以 看 到 (文件 : Nginx proxy with Keep-Alivepcap, Frame 91) ， 配 置 后 Nginx 重 用 了 后 端 连接 ， 如 图 6-6 所 示 。 


74 54101 > 80 [SYN] Seq=335220583 Win=5840 Len=0 
74 80 > 54101 [SYN, ACK] Seq=670795034 Ack=3352205 
66 54101 > 80 [ACK] Seq=335220584 Ack=670795035 Wi 
164 GET /index-htm] HTTP/1.1 

66 BO > 54101 [ACK] 5Seq-670795035 Ack-335220682 Wi 
280 [TCP seqment of a reassembled PDU] 

66 54101 » 80 [ACK] Seq-335220682 Ack-670795249 wi 
71 HTTP/1.1 200 OK (text/html) 

66 54101 > 80 [ACK] Seq-335220682 Ack-670795254 wi 
164 GET /index.html HTTP/1.1 

280 [TCP segment of a reassembled PDU] 

71HTTP/1.1 200 OK (text/html) 


83 2015-12-08 ; 42.107250 
86 2015-12-08 :59:42. 107346 
88 2015-12-08 2:59:42. 107357 
91 2015-12-08 :59:42. 107400 
114 2015-12-08 :59:42.107592 
146 2015-12-08 1:59:42. 107717 


147 2015-12-08 12:59:42.107720 
150 2015-12-08 12:59:42.107730 
151 2015-12-08 12:59:42.107734 
448 2015-12-08 12:59:42.109288 
474 2015-12-08 12:59:42.109427 
475 2015-12-08 12:59:42.109432 
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图 6-6 HTTP 1.1 协 议 反 向 代理 时 Nginx 的 网 络 行为 概况 


Frame 91 和 Frame 448 使 用 了 同一 个 连接 ， 如 图 6-7 和 图 6-8 所 示 。 


s Frame 91: 164 bytes on wire (1312 bits), 164 bytes captured (1312 bits) 

i» Ethernet IT, Src: 78:2b:cb:64:98:a2 (78:2b:cb:64:98:a2), Dst: 78:2b:cb:64:98:9f (78:2b:cb:64:98:9f) 

四 Internet Protocol Version 4, Src: 10.1.6.28 (10.1.6.28), Dst: 10.1.6.21 (10.1.6.21) 

|» Transmission Control Protocol, Src Port: 54101 (54101), Dst Port: 80 (80), Seq: 335220584, Ack: 670795035, Len: 98 
Source port: 54101 (54101)«——— 

Destination port: 80 (80) 

[Stream index: 19] 

Sequence number: 335220584 

[Next sequence number: 335220682] 


Acknowledgment number: 670795035 
Header length: 32 bytes 
m Flags: 0x018 (PSH, ACK) 
Window size value: 46 
[Calculated window size: 5888] 
[window size scaling factor: 128] 
© Checksum: 0x20bb [validation disabled] 


图 6-7 HTTP 1.1 协 议 反 向 代理 时 Nginx 第 一 次 请 求 时 的 源 端口 号 


由 图 6-8 对 比 图 6-7 可 以 知道 ，2 次 使 用 了 同一 个 TCP 连 接 。 


o Frame 448: 164 bytes on wire (1312 bits), 164 bytes captured 
|j] Ethernet II, Src: 78:2b:cb:64:98:a2 (78:2b:cb:64:98:a2), Dst: 78:2b:cb:64:98:9f (78:2b:cb:64:98:9f) 
|; Internet Protocol Version 4, Src: 10.1.6.28 (10.1.6.28). Dst: 10.1.6.21 (10.1.6.21) 
lj Transmission Control Protocol, Src Port: 54101 (54101), Dst Port: 80 (80), Seq: 335220682, Ack: 670795254, Len: 98 
Source port: 54101 (54101)€— —— 
Destination port: 80 (80) 
[stream index: 19] 
Sequence number: 2335220682 
[Next sequence number: 335220780] 
Acknowledgment number: 670795254 
Header length: 32 bytes 
Flags: 0x018 (PSH, ACK) 
Window size value: 54 
[Calculated window size: 6912] 
[Window size scaling factor: 128] 
Checksum: Ox20bb [validation disabled] 
Options: (12 bytes), No-Operation (NOP), No-Operation (NOP), Timestamps 
[SEQ/ACK analysis] 


图 6-8 HTTP 1.1 协 议 反 向 代理 时 Nginx 第 一 次 请 求 时 的 源 端口 号 
Nginx 中 ip_local_port_range 问 题 


Nginx 在 向 后 端 服务 器 发 起 代理 请 求 时， 以 本 地 的 IP 作 为 源 IP、 以 本 地 的 随机 端口 号 作为 源 端 口号 ， 因 此 同样 存在 和 第 5 章 中 HAProxy 相 同 的 ip_local_port_range 问 题 。 


具体 修改 配置 的 方法 ， 请 参考 第 5 章 中 的 相关 内 容 。 


Nginx 被 代理 的 后 端 服务 器 获取 客户 端 IP 


根据 上 一 小 节 的 叙述 ， 在 Nginx 被 代理 的 后 端 服 务 器 上 ， 使 用 netstat 等 命令 可 以 看 到 ， 和 后 端 服务 器 建立 TCP 连 接 的 来 源 IP 不 是 客户 端的 IP， 而 是 Nginx 的 IP。 因 此 在 后 端 应 用 程序 需要 获取 客户 端 实际 
来 源 IP 地 址 时 ， 需 要 使 用 Header X-Forwarded-For。 


具体 代码 ， 请 参考 第 5 章 中 的 相关 内 容 。 


最 佳 实践 32: Nginx 监 控 
性 能 采集 


在 Nginx 中 增加 配置 项 : 


location /ngx status 
{ 


stub status on; 

access log off; 

allow 127.0.0.1;# 请 对 应 增加 需要 访问 的 来 源 IP 
deny all; 


使 用 浏览 器 打开 可 以 看 到 如 图 6-9 所 示 的 内 容 。 


E & | 10.16.28 /ngx status 


Active connections: 1 

Server accepts handled requests 
100021 100021 100054 

Reading: O Writing: 1 Waiting: O 


图 6-9 Nginx 性 能 监控 页 面 


* active connections: 活跃 的 连接 数量 。 

* server accepts handled requests: 总 共处 理 了 100021 个 连接 ， 成 功 创建 100021 次 握手 ， 总 共处 理 了 10054 个 请 求 。 

- reading: 读 取 客户 端的 连接 数 。 

writing: 响应 数据 到 客户 端的 数量 。 

:waiting: 开启 keep-alive 的 情况 下 ， 这 个 值 等 于 active 一 (teading+wtiting) ， 意 思 就 是 Neinx 已 经 处 理 完 正在 等 候 下 一 次 请 求 指令 的 驻 留 连接 。 


通过 bash 脚 本 可 以 对 此 输出 进行 格式 化 ， 然 后 添加 到 Zabbix 等 监控 工具 中 。 


可 用 性 监控 


在 监控 可 用 性 方面 ， 除 了 端口 探测 之 外 ， 还 需要 从 HTTP 的 应 用 层 进行 监控 以 下 是 我 们 使 


到 的 一 个 监控 脚本 ， 用 于 模拟 文件 上 传 和 下 载 等 操作 ， 可 以 参考 实现 。 


#!/usr/local/python2.7/bin/python 
import MultipartPostHandler, urllib2, cookielib, time 
import sys,re,hashlib 


def upload () : 


try: 


1E 


cookies = cookielib.CookieJar () 


opener = urllib2.build opener (urllib2.HTTPCookieProcessor (cookies) ,MultipartPostHandler.MultipartPostHandler) 


opener.addheaders = [(" 
params = ( "return url" 


, "file":open("l.jpg", "rb")} 


ost', 'upload.storage.sdo.com') ]# 添 加 Host 头 部 


response = opener.open ("http://upload. storage.sdo.com/monitor?key=1.jpg", params) 


if response.getcode() != 200: EAD ST 

sys.exit (1) 

not re.search('1l.jpg',response.read()): 
sys.exit (1) 


except urllib2.HTTPError,e: 


print e 
print "uploadl|fail" 


def download(): 


downpath = "./down/" 


now = 
fname 
try: 


1E 


time.strftime ('$Y$m$d$H$M$S') 
= downpath + now + "_1.jpg" 


url = "http://download.storage.sdo.com/monitor" 

request = urllib2.Request (url) 

request.add_header ('Host', 'download.storage.sdo.com') 

request.get_method = lambda:"GET" 

downfile = urllib2.urlopen (request) 

if downfile.getcode() !- 200: 

sys.exit (1) 

output = open(fname, "wb") 

output.write (downfile.read()) 

output.close|() 

not hashlib.md5 (open (fname, "rb").read()).hexdigest() == 
sys.exit (1) 


except urllib2.HTTPError,e: 


print e 
print "downl|fail" 


except IOError,e: 


def delete(): 


print e 
print "down2|fail" 


url = "http://upload.storage.sdo.com/monitor" 


try: 


request - urllib2.Request (url) 

request.add header ('Host', 'upload.storage.sdo.com') 
request.get method = lambda: "DELETE" 

request = urllib2.urlopen (request) 

if request.getcode() != 200: 

sys.exit (1) 


print "Q"4"|"i"ok" 
except urllib2.HTTPError,e: 


print e 
print "l|fail" 


print 'Content-Type: text/htmlWWn' 


upload() 
download() 
delete () 


'e074e7aac9£65 bic0ala90b6c6e2562d' :# 校 验 下 载 下 来 的 文件 md5sum 


最 佳 实践 33: 


首先 检查 error.log 和 access.log。 这 两 个 日 志 ， 提 供 了 丰富 的 信息 ， 作 为 问题 检查 的 首要 入 口 。 


Nginx 排 错 步 又 推荐 


“ erroflog 主 要 关注 是 否 有 连接 后 端 服务 器 失败 的 情况 。 


- access.log 里 面 ， 会 记录 后 端 服务 器 返回 的 状态 ， 关 注 是 否 有 除 状态 码 200，301，302，404 之 外 的 情况 。 


其 次 检查 Nginx 服 务 器 的 带宽 流量 ， 使 用 ifstat 等 命令 。 


最 后 在 Nginx 服 务 器 上 手动 执行 curl 等 命令 ， 观 察 后 端 服务 器 的 响应 时 间 。 


最 佳 实践 34: 


Nginx 常 见 问题 的 处 理 方法 


(1) 错误 码 400 bad request 


一 般 原因 : 请 求 的 Header 过 大 。 


解决 方法 : 配置 nginx.conf 相 关 设 置 如 下 : 


client header buffer size 16k; 
large client header buffers 4 64k; 


根据 具体 情况 调整 ， 一 般 适 当 调整 值 就 可 以 。 


(2) 错误 码 413 Request Entity Too Large 


一 般 原 因 : 这 个 错误 一 般 在 上 传 文件 的 时 候 会 出 现 。 


解决 方法 : 配置 nginx.conf 相 关 设置 如 下 : 


client max body size 10m; // 根 据 自 己 需要 上 传 的 文件 的 大 小 调整 


如 果 运 行 PHP 的 话 ，client_max_body _ size 要 和 php.ini 中 的 如 下 值 的 最 大 值 一 致 或 者 稍 大 ， 这 样 就 不 会 


DH 


为 提交 数据 大 小 不 一 致 而 出 现 错误 。php.ini 设 置 如 下 : 


post max size = 10M 


upload max filesize = 2M 


(3) 错误 码 499 Client Closed Request 


一 般 原 因 : 客户 端 在 未 等 到 服务 器 端 响应 返回 前 就 关闭 了 客户 端的 描述 符 。 这 个 情况 一 般 出 现在 自己 开发 的 客户 端 设 置 了 超时 后 ， 主 动 关 闭 socket。 


解决 方法 : 根据 实际 Nginx 后 端 服务 器 的 处 理 时 间 修 改 客户 端的 超时 时 间 。 
(4) 错误 码 502 Bad Gateway、503 Service Unavailable 


一 般 原 因 : 后 端 服务 器 响应 无 法 处 理 ， 业 务 中 断 。 


解决 方法 : 从 后 端 服务 器 的 日 志 中 获取 请 求 处 理 失败 的 具体 线索 ， 解 决 后 端 服务 器 的 问题 。 
(5) 错误 码 504 Gateway Timeout 


一 般 原 因 : 后 端 服务 器 在 超时 时 间 内 ， 未 响应 Nginx 的 代理 请 求 。 


解决 方法 : Nginx 中 的 2 个 配置 项 决定 了 它 向 后 端 请 求 时 的 超时 时 间 ， 需 要 根据 后 端 服务 器 的 实际 处 理 情况 进行 调整 。 


proxy read timeout 90; # 读 取 超 时 ， 默 认为 60 秒 
proxy send timeout 90; # 发 送 超时 ， 默 认为 60 秒 


本 章 小 结 
Nginx 作 为 一 款 开源 的 、 持 续 受 到 关注 的 Web 服 务 和 反 向 代理 软件 ， 经 常 被 用 到 Web 集 群 环境 中 。 本 章 中 的 所 有 最 佳 实践 均 来 自 于 实际 工作 中 ， 其 中 遇 到 的 一 些 问题 是 所 有 运 维 工程 师 都 可 能 碰 到 的 。 从 
基础 的 安装 到 优化 、 监 控 、 排 错 、 常 见 问题 的 处 理 ， 本 章 系 统 完整 地 讲解 了 使 用 Nginx 在 负载 均衡 方案 中 需要 注意 的 事项 、 最 优化 的 配置 。 


通过 本 章 的 学 习 ， 读 者 应 该 能 够 完全 掌握 Nginx 的 各 种 配置 ， 同 时 对 新 的 问题 也 具有 了 体系 的 排 错 思路 。 后 面 的 章节 将 开始 介绍 运 维 方面 常见 的 商业 解决 方案 及 其 最 佳 实践 。 


第 7 章 ”部 署 商业 负载 均衡 设备 NetScaler 


前 述 几 章 介 绍 了 基于 开源 软件 的 负载 均衡 和 高 可 用 技术 方案 。 本 章 将 介绍 一 款 比较 常见 的 商业 负载 均衡 设备 NetScaler (官方 名 称 是 Cittix NetScaler) o 
NetScaler 在 应 用 中 的 主要 的 型 号 是 MPX。 
它 的 应 用 场景 有 以 下 几 种 。 
“ 管理 Gbps 的 网 站 流量 : NetScaler MPX 为 众多 大 型 网 站 提供 了 支持 ; 新 兴 的 云 计算 架构 中 也 用 到 了 NetScaler MPX 以 提供 大 吞吐 、SSL 加 速 、 压 缩 、 并 行 处 理 等 。 
:为 中 小 企业 提供 负载 均衡 : 在 中 小 型 企业 里 面 ，NetScaler 的 MPX 有 2Gbps 到 6Gbps 的 版 本 ， 为 企业 网 站 提供 恰好 满足 业务 需求 的 负载 均衡 方案 。 


“ 高 性 能 的 网 站 应 用 安全 : App 防 火 墙 为 网 站 提供 第 一 层 的 检测 和 过 滤 ， 使 恶意 请 求 无 法 到 达 后 端 服务 器 ， 保 障 后 端 服务 器 的 应 用 层 安全 。 


最 佳 实 践 35: NetScaler 的 初始 化 设置 


NetScaler 中 各 种 用 途 的 IP 概 念 


在 配置 NetScaler 的 初始 化 设置 之 前 ， 首 先 需要 了 解 NetScaler 里 面 的 各 种 用 途 的 IP 地 址 。 


1) NetScaler IP Address (NSIP) : 
- 管理 NetScaler。 

<- HAS ko 

* Weblog 收 集 。 

< SNMP 监 控 。 


2) Mapped IP Address (MIP) : 连接 后 端 实际 提供 业务 的 服务 器 。 


3) Subnet IP Address (SNIP) : 用 于 连接 后 端 实 际 提供 业务 的 服务 器 (该 服务 器 所 在 的 网 段 和 MIP 及 NSIP 都 不 同 ) 。 简 单 地 说 ，MIP 可 以 理解 为 NetScaler 做 反 向 代理 时 连接 后 端 实际 提供 业务 的 服 
务 器 的 “最 后 努力 ”，SNIP 优 先 。 


4) Virtual Server IP Address (VIP) : 
“ 用 户 访问 网 站 时 解析 到 此 IP。 
- Reverse Network Address Translation (RNAT) ， 用 于 NetScalet 后 端的 服务 器 访问 公 网 做 地 址 转换 。 
NetScaler 初 始 化 的 步骤 


本 案例 配置 x.y.z.134 (主机 名 BJ-NS-1) 和 x.y.z.135 (BJ-NS-2) 为 双 机 热 备 ， 然 后 配置 基本 的 网 络 、 账 号 、NTP、SNMP 等 ， 为 后 续 配 置 负 载 均衡 做 基础 准备 。 


配置 出 厂 后 的 NetScaler 大 致 分 以 下 步骤 。 


1) 将 NetScaler 使 用 console 接 入 到 笔记 本 ， 默 认 账号 nsroot/nsroot。 


2) 设置 链 路 层 聚 合 。 使 用 如 下 命令 : 


set interface 
set interface 
set interface 
set interface 
set interface 


0/1 -haMonitor OFF -throughput 0 -bandwidthHigh 0 -bandwidthNormal 0 

1/1 -flowControl RXTX -throughput 0 -bandwidthHigh 0 -bandwidthNormal 0 
1/2 -flowControl RXTX -throughput 0 -bandwidthHigh 0 -bandwidthNormal 0 
1/3 -flowControl RXTX -throughput 0 -bandwidthHigh 0 -bandwidthNormal 0 
1/4 -flowControl RXTX -throughput 0 -bandwidthHigh 0 -bandwidthNormal 0 


add 
add 


channel LA/1 -ifnum 1/1 1/2 -throughput 0 -bandwidthHigh 0 -bandwidthNormal 0 # 绑 定 1/1 1/2 为 聚合 端口 LA/1 
channel LA/2 -ifnum 1/3 1/4 -throughput 0 -bandwidthHigh 0 -bandwidthNormal 0 # 绑 定 1/3 1/4 为 聚合 端口 LA/2 


3) 设置 hostname。 使 用 以 下 命令 : 


Set 


ns hostName BJ-NS-1 


4) 设置 NSIP。 使 用 以 下 命令 : 


set 
add 


ns config -IPAddress x.y.z.134 -netmask 255.255.255.128 
route 0.0.0.0 0.0.0.0 x.y.z.129 


5) 设置 MIP。 使 用 以 下 命令 : 


add 
add 


ns ip 10.3.12.134 255.255.255.0 -type MIP -vServer DISABLED 
route 10.0.0.0 255.0.0.0 10.3.12.1 


6) 设置 RNAT。 使 用 如 下 命令 : 


add 
set 


ns ip x.y.z.133 255.255.255.128 -type VIP -vServer DISABLED 


rnat 10.0.0.0 255.0.0.0 -natIP x.y.z.133 #10.0.0.0/8 网 段 的 服务 器 通过 该 NetScaler 上 网 时 ， 对 公 网 服务 器 上 来 说 看 到 的 源 IP 是 x.y.z.133 


7) 修改 密码 。 使 用 以 下 命令 : 


Set 


system user nsroot «password» 


8) ACL (Access Control List， 访 问 控制 列表 ) 是 NetScaler 里 面 对 网 络 安全 性 的 保护 。NSIP 为 公 网 时 ， 经 常会 有 不 同 来 源 的 登录 端 


设置 ACL， 在 网 络 层 限 制 对 NSIP 的 访问 。 使 用 如 下 命令 : 


扫描 和 登录 尝试 ， 对 NetScaler 的 安全 性 产生 一 定 的 风险 。 通 过 


add 
add 
add 
add 
add 
add 
add 
add 
add 
add 
add 


ns acl ALLOW2105834626 ALLOW -srcIP 127.0.0.1 -protocol TCP 

ns acl ALLOW2105834627  ALLOW -srcIP 127.0.0.2 -protocol TCP 

ns acl ALLOW1022709603 ALLOW -srcIP 61.172.240.228 -protocol TCP 

ns acl ALLOW1022709728  ALLOW -srcIP 61.172.241.98 -protocol TCP 

ns acl ALLOW1022709750  ALLOW -srcIP 61.172.241.120 -protocol TCP 

ns acl ALLOW1895512673  ALLOW -srcIP 114.80.133.8 -protocol TCP 

ns acl ALLOW1895512785 ALLOW -srcIP 114.80.133.120 -protocol TCP 

ns acl ALLOW1918713719  ALLOW -srcIP x.y.z.134 -protocol TCP 

ns acl ALLOW1918713720 ALLOW -srcIP x.y.z.135 -protocol TCP 

ns acl BlockTcpTol34 DENY -destIP x.y.z.134 -protocol TCP -priority 1000 
ns acl BlockTcpTol135 DENY -destIP x.y.z.135 -protocol TCP -priority 1010 


apply ns acls 


9) 配置 NTP 时 间 服 务 器 。 使 用 如 下 命令 : 


shell # 进 入 到 FreeBSD 操 作 系统 命令 行 状态 

cd /nsconfig 

touch rc.netscaler # 此 文件 在 Netscaler 启 动 时 会 被 执行 

echo '"'/usr/sbin/ntpd -g -l /var/log/ntpd.log' >> rc.netscaler 
echo 'server x.y.z.29 minpoll 6 maxpoll 10' » ntp.conf 

echo 'restrict default ignore' > ntp.conf 


注意 


完成 以 上 操作 后 ， 应 重启 NetScaler， 重 启 前 先 保存 配置 ， 具 体 命令 如 下 : 


save ns config 


执行 shell， 进 入 到 FreeBSD 操 作 系 统 命令 行 状态 : 


reboot 


中 


量 启 后 使 用 如 下 命令 检查 NTP 时 间 服务 器 的 配置 是 否 成 功 : 


> show ntp server 


NTP Server: x.y.2.29 
Minimum Poll Interval: 6 (64secs) 
Maximum Poll Interval: 10 (1024secs) 


Done 


10) 


配置 HA (High Availablity， 高 可 用 ) 。 使 用 如 下 命令 添加 HA 节点 : 


> add HA node 1 nsip of the other node 


使 


如 下 命令 检查 当前 HA 的 配置 和 状态 : 


> show nodes 


如 下 是 一 个 HA 配置 和 状态 示例 (由 show nodes 命 令 得 出 ) 


1) Node ID: 0 
IP: x.y.z.134 (BJ-NS-1) 
Node State: UP 
Master State: Primary # 该 NetScaler 为 主 
Fail-Safe Mode: OFF 
INC State: DISABLED 
Sync State: ENABLED 
Propagation: ENABLED 
Enabled Interfaces : 0/1 LA/1 LA/2 
Disabled Interfaces : None 
HA MON ON Interfaces : LA/1 LA/2 
Interfaces on which heartbeats are not seen : 0/1 
Interfaces causing Partial Failure: None 
SSL Card Status: UP 
Hello Interval: 200 msecs 
Dead Interval: 3 secs 
Node in this Master State for: 1:17:38:7 (days:hrs:min:sec) 
2) Node ID: Ei 
IP: x.y.z.135 
Node State: UP 
Master State: Secondary # 该 NetScaler 为 辅 
Fail-Safe Mode: OFF 
INC State: DISABLED 
Sync State: SUCCESS 
Propagation: ENABLED 
Enabled Interfaces : 0/1 LA/1 LA/2 
Disabled Interfaces : None 
HA MON ON Interfaces : LA/1 LA/2 
Interfaces on which heartbeats are not seen : 0/1 
Interfaces causing Partial Failure: None 
SSL Card Status: UP 
Local node information: 
Critical Interfaces: LA/1 LA/2 


Done 


Qe 


HAH & NetScaleráf nsroot 22 83: fi 8 F] o 


11) 配置 SNMP。 使 用 如 下 命令 : 


> add snmp community public GET 
»add snmp manager x.y.z.9 


在 Xx.y.z.9 上 ,测试 下 SNMP 的 效果 ， 使 用 如 下 命令 : 


# snmpwalk -v 2c -c public x.y.z.134 
SNMPv2-MIB::sysDescr.0 = STRING: NetScaler NS9.2: Build 48.6.cl, Date: Sep 23 2010, 08:17:54 
SNMPv2-MIB::sysObjectID.0 = OID: SNMPv2-SMI::enterprises.5951.1 
DISMAN-EVENT-MIB::sysUpTimeInstance = Timeticks: (15288400) 1 day, 18:28:04.00 
SNMPv2-MIB::sysContact.0 = STRING: WebMaster (default) 
ysName.0 = STRING: NetScaler 
ysLocation.0 = STRING: POP (default) 
SNMPv2-MIB::sysServices.0 - INTEGER: 72 

š .0 = INTEGER: 10 


= INTEGER: 
= INTEGER: 
= INTEGER: 


1 
2 
3 
INTEGER: 4 
INTEGER: 5 
INTEGER: 6 
INTEGER: 7 
INTEGER: 8 
STRING: 1/3 


HONDU BWNE 


IF-MIB: :ifDescr. 


至 此 ， 一 台 出 三 后 的 Netscaler 初 始 化 完毕 ， 可 以 进行 负载 均衡 的 配置 了 。 


最 佳 实践 36: NetScaler 基 本 负载 均衡 核心 参数 配置 


本 实践 中 所 说 的 基本 负载 均衡 ， 是 相对 于 内 容 交 换 的 ， 不 通过 应 用 层 的 内 容 来 进行 负载 调度 ， 仅 仅 通过 4 层 的 信息 。 


Oza 


NetScaler 支 持 TCP 模 式 和 HTTP 模 式 。 
在 TCP 模 式 中 ，NetScalet 的 网 络 行为 和 HAProxy 相 似 。 
在 HTTP 模式 中 ， 虽 然 此 处 NetScaler 使 用 了 4 层 的 信息 ， 但 其 分 析 了 应 用 层 的 内 容 ， 并 可 以 进行 重 构 等 。 


配置 一 个 基本 的 HTTP 模 式 的 负载 均衡 的 步骤 如 下 。 


1) 添加 后 端 服务 器 。 使 用 的 命令 如 下 : 


add server server-10.128.114.77 10.128.114.77 


2) 添加 一 个 HTTP 服 务 service (后 端 服务 器 + 端口 ， 及 属性) 。 使 用 的 命令 如 下 : 


add service service-http-10.128.114.77 server-10.128.114.77 HTTP 80 -gslb NONE -maxClient 1000 -maxReq 1000 -cip ENABLED REALIP -usip NO -useproxyport YES -sp OFF -cltTimeout 1 


各 参数 的 含义 如 下 。 
- maxClient: NetScaler 向 后 端 服务 器 打开 的 连接 数 的 最 大 值 。 
: maxReq: 持久 连接 上 ，NetScaler 可 以 向 后 端 服务 器 通过 一 个 连接 可 以 发 送 的 请 求 数量 。 


“ cip: 是 否 在 HTTP 中 启用 传递 客户 端 IP。 在 本 例 中 ， 启 用 ， 使 用 HTTP 的 HeaderREALIP 向 后 端 服务 器 传递 客户 端 来 源 IP。 


“ usip: 默认 情况 下 ，NetScaler 使 用 的 代理 模式 ， 以 本 机 的 MIP 作 为 源 IP 向 后 端 服务 器 发 起 TCP 连 接 。 在 某 些 业务 场景 中 ， 可 能 需要 直接 以 转发 的 方式 向 后 端 服务 器 发 起 请 求 ， 即 不 改变 来 源 IP 地 址 ， 以 


EP RIPE A WIPER. 


“ useproxyport: 在 启用 了 usip 时 ， 是 否 以 客户 端 来 源 的 TCP 端 口 作 为 源 端口 。 

tsp: 浪 涌 保 护 。 一 般 建议 关闭 ， 后 面 有 详细 描述 。 

: cltTimeout、svtTimeout: 关闭 不 活跃 的 TCP 连 接 (分 别 和 客户 端 、 和 服务 器 端 ) 前 保持 的 时 间 。 
< CKA: 客户 端 Keep-Alive 是 否 打开 ， 一 般 打 开 。 

-TCPB: TCP buffer 特 性 ， 一 般 关 闭 。 


"CMP: 压缩， 一 般 启 用 。 


Oza 


usip 开 启 时 ，NetScaler 无 法 对 后 端 服务 器 使 用 连接 复 用 。 在 后 端 服务 器 上 看 到 的 TCP 连 接 数 一 般 比 不 开启 的 多 1 倍 以 上 。 


3) 添加 一 个 虚拟 服务 器 vserver。 使 用 的 命令 如 下 : 


add lb vserver vserver-http-x.y.z.139-80 HTTP x.y.z.139 80 -lbMethod ROUNDROBIN -persistenceType COOKIEINSERT -persistenceBackup SOURCEIP -cltTimeout 10 


各 参数 的 含义 如 下 。 
'IbMethod: 负载 均衡 算法 。 如 轮 询 、 最 小 连接 数 等 。 一 般 使 用 轮 询 即 可 。 
“ persistenceType: 会 话 保持 的 方法 。 这 个 和 HAProxy 里 面 的 cookie 指 令 类 似 。 可 以 选择 让 NetScaler 插 入 COOKIE (COOKIEINSERT) 或 者 使 用 源 地 址 保持 (SOURCEIP) 。 
- persistenceBackup: 同上 ， 在 第 一 种 方法 无 法 判断 调度 到 哪个 后 端 服务 器 时 ， 使 用 该 会 话 保持 方法 。 
: cltTimeout: 客户 端 超时 时 间 。 


4) vserver 和 service 绑 定 。 使 用 的 命令 如 下 : 


bind lb vserver vserver-http- x.y.z.139-80 service-http-10.128.114.77 


5) 监控 后 端 服务 的 健康 情况 。 使 用 的 命令 如 下 : 


bind lb monitor http service-http-10.128.114.77 


HTTP 模 式 的 健康 检查 ， 是 NetScaler 内 置 的 ， 其 内 容 是 : 


show lb monitor http 

1) Namehttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/. .http: / /www.hzcourse.com/resource/readBook?path-/openresources 

Standard parameters: D 
Intervalhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresource 
Response timeout.: 2 sec Down timehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/0EBPS/Text/ . .http: / /www.hzcours 
Reversehttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text./ . . http: //www.hzcourse.com/resource/readBook?path-/openresources 
Securehttp: / /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text./ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/ 
Actionhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/. .http: / /www.hzcourse.com/resource/readBook?path-/openresources/ 
Destination IPhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...: Bound service 
Destination port.: Bound service 
Iptunnelhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?path-/openresource 
TOShttp: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/. http: //www.hzcourse.com/resource/readBook?path-/openresources/tee 
SNMP Alert Retries: 0 Success Retrieshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/..: 
Failure Retrieshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/..: 0 

Special parameters: 
HTTP requesthttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/ . .http: / [sun hzcourse.com/resource/readBook?path-/openresc 
Custom headershttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...:"" 
Response codeshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/.. 


200 # 检 查 返 回 的 状态 码 


Done 


可 以 自 定义 健康 检查 的 方法 ， 具 体 如 下 : 


add lb monitor Unicms-Http-ecv HTTP-ECV -send "GET /UNSServices.asmx" -recv UNSServices -LRTM ENABLED -interval 3 -resptimeout 1 -downTime 20 


各 参数 的 含义 如 下 。 

“send: 向 后 端 服务 器 发 送 的 请 求 。 

“ tecv; 后 端 服务 器 的 响应 中 必须 包含 的 字符 囊 。 
DLRTM: 计算 探测 的 响应 时 间 。 

“interval: 探测 间隔 。 

“ resptimeout: 判断 响应 超时 的 时 间 。 


downTime: 当 后 端 服务 器 被 探测 为 DOWN 的 时 候 ， 等 待 该 时 间 后 再 发 起 探测 请 求 。 


另外 ， 可 以 使 用 customHeaders 这 个 参数 来 向 后 端 服务 器 发 送 额外 的 HTTP 的 Header。 


最 佳 实践 37: NetScaler 内 容 交 换 核心 参数 配置 


在 配置 NetScaler 内 容 交 换 时 ， 使 用 到 的 架构 图 如 图 7-1 所 示 。 


配置 步骤 如 下 。 
1) 添加 一 个 内 容 交换 的 策略 。 使 用 如 下 命令 : 


add cs policy cs-policy-host-bbs.fr.sdo.com -rule "REQ.HTTP.HEADER Host 一 bbs.fr.sdo.com" 


Os 


rule 可 以 选择 任何 来 自 客户 端 请 求 的 HTTP 的 Header 字 段 ， 非 常 灵活 。 


2) 添加 后 端 服务 器 。 使 用 如 下 命令 : 


add server server-10.128.114.77 10.128.114.77 
add server server-10.128.77.20 10.128.77.20 


3) 添加 两 个 服务 (后 端 服务 器 + 端口 ， 及 属性 ) 。 使 用 如 下 命令 : 


add service service-http-10.128.114.77 server-10.128.114.77 HTTP 80 -gslb NONE -maxClient 1000 -maxReq 1000 -cip ENABLED REALIP -usip NO -useproxyport YES -sp OFF -cltTimeout 1 


Internet 


VIP: x.y.z.139 


MIP: 10.3.12.134 


域名 : bbs.fr.sdo.com | | 其 他 域名 或 者 访问 


10.128.114.77:80 10.128.77.20:80 


图 7-1 NetScaler 内 容 交 换 架 构图 


add service service-http-10.128.77.20 server-10.128.77.20 HTTP 80 -gslb NONE -maxClient 1000 -maxReq 1000 -cip ENABLED REALIP -usip NO - useproxyport YES -sp OFF -cltTimeout 1C 


4) 添加 两 个 vserver。 使 用 如 下 命令 : 


add lb vserver vserver-http-x.y.z.139-9001 HTTP x.y.z.139 9001 -persistenceType COOKIEINSERT -persistenceBackup SOURCEIP -cltTimeout 10 
add lb vserver vserver-http-x.y.z.139-9002 HTTP x.y.z.139 9002 -persistenceType COOKIEINSERT -perisistenceBackup SOURCEIP -cltTimeout 10 


5) vserver 和 service 绑 定 。 使 用 如 下 命令 : 


bind lb vserver vserver-http- x.y.z.139-9001 service-http-10.128.114.77 
bind lb vserver vserver-http- x.y.z.139-9002 service-http-10.128.77.20 


6) 添加 一 个 内 容 交 换 的 vserver。 使 用 如 下 命令 : 


add cs vserver cs-vserver-x.y.z.139 HTTP x.y.z.139 80 -cltTimeout 10 


7) 绑 定 内 容 交 换 的 vserver 通 过 策略 分 发 到 负载 均衡 vserver。 使 用 如 下 命令 : 


bind cs vserver cs-vserver-x.y.z.139 vserver-http- x.y.z.139-9001 -policyName cs-policy-host-bbs.fr.sdo.com -priority 100 
bind cs vserver cs-vserver-x.y.z.139 vserver-http-x.y.z.139-9002 


8) 添加 后 端 健康 检查 。 使 用 如 下 命令 : 


bind lb monitor http service-http-10.128.77.20 
bind lb monitor http service-http-10.128.114.77 


NetScaler 被 代理 的 后 端 服务 器 获取 客户 端 IP 


在 配置 service 时 加 入 -usip NO 参数 的 情况 下 ， 在 后 端 执行 netstat 时 ， 看 到 的 是 NetScaler 的 MIP 或 者 Subnet IP。 如 果 应 用 程序 需要 获取 客户 端 地 址 ， 则 需要 在 NetScaler 上 设置 在 HTTP 的 Header 中 加 
入 一 个 头 部 (-cip ENABLED REALIP) 。 后 端 服 务 器 使 用 该 HTTP 的 Header 抓 取 客户 端的 来 源 IP。 


最 佳 实践 38: NetScaler 的 Weblog 配 置 与 解析 


NetScaler 提 供 了 nswl 工 具 ， 用 于 从 NetScaler 服 务 器 上 抓 取 访 问 日 志 。 


NetScaler 官 方 网 站 提供 了 下 载 地址 。 但 需要 注意 ，nswl 的 版 本 必须 和 NetScaler 的 firmware 版 本 相同 。 可 以 使 用 如 下 命令 确认 NetScaler 的 firmware 版 本 : 


> show ns info 
NetScaler NS9.2: Build 48.6.nc, Date: Sep 23 2010, 10:04:46 


在 Linux 服 务 器 上 执行 以 下 命令 即 可 安装 : 


rpm -ivh nswl linux-9.2-48.6.rpm 


安装 路 径 位 于 /usr/local/netscaler。 配 置 文 件 位 于 /usr/local/netscaler/etc/log.conf。 


配置 文件 内 容 如 下 : 


Filter default 


begin default 


logFormat W3C 
logInterval None 
LogFileSizeLimit 10240 
LogFormat custom $h $1 $u [$t] "sr" $s $B "$(referer]i" "$(user-agent]i" "$(Cookie)i" $M 
logFilenameFormat /data/nswl/$v/access.log 
logExclude -gif .jpg .png .bmp .js .css .ico 
logtime LOCAL 
end default 
NSIP x.y.z.134 username nsroot password passwordEncrypted 
NSIP x.y.z.135 username nsroot password passwordEncrypted 
重要 参数 如 下 。 


“LogFormat 定 义 了 日 志 中 需要 保留 的 字段 。 
“ %h 客户 端 IP。 

Dd 远程 log 名 称 。 

“ %u HEMP (来 自 auth 字 段 )。 

“ %t 请 求 时 间 ， 标 准 的 英语 格式 。 

“ %r 请 求 的 第 一 行 。 

“ %s 对 于 内 部 重 定向 的 请 求 ， 第 一 次 请 求 的 状态 码 。 
“ %B 响应 大 小 。 

* Vo (referer]i Referer 字 段 。 

“ Vo(user-agent]i User-Agent 字 段 。 

* %{Cookie}i Cookie £t, 

DUUM 处 理 请 求 的 时 间 。 


如 下 ， 是 一 个 实际 的 Log 条 目 。 


114.84.237.236 - - [30/Aug/2014:22:54:04 +0800] "POST /connect/app/exploration/fairyhistory?cyt-1 HTTP/1.1" 200 4592 "-" "Million/103 (GT-19100; GT-19100; 2.3.4) samsung/GT-I191 


最 佳 实践 39: NetScaler 高 级 运 维 指 南 


前 面 的 小 节 已 经 部 署 了 一 套 NetScaler 的 负载 均衡 和 高 可 用 系统 。 本 节 将 介绍 NetScaler 的 高 级 运 维 知识 。 


NetScaler 的 设计 是 基于 一 个 在 NetScaler 内 核 和 FreeBSD 操 作 系 统 层次 的 模型 。 


NetScaler 的 内 核 在 FreeBSD 内 核 的 下 层 工 作 ， 控 制 以 下 功能 。 
: 为 FreeBSD 分 时 (Timeslicing) 。 

- 网 络 访问 。 

- SNMP 和 syslog 处 理 。 

: SSL AX. 

FreeBSD 管 理 : 

“启动 过 程 。 

' 文件 系统 访问 。 

“ 其 他 日 志 。 


NetScaler 和 FreeBSD 系 统 的 关系 如 图 7-2 所 示 。 


User Space Apps(Configuration, Logging, etc) 


Time Slicing Network Access 
NetScaler Kernel 
Disk Access SSL Processing Network Drivers 


图 7-2 ” NetScaler 与 FreeBSD 的 关系 图 


查看 NetScaler 整 体 的 运行 状态 ， 可 以 使 用 Dashboard 或 者 命令 行 ， 如 图 7-3 所 示 。 


使 用 如 下 命令 获得 NetScaler 的 整体 运行 状态 : 
Packet CPU Usage Management CPU Usage Memory Usage Throughput 
| , r IN: 13 Mbps 
OUT: 10 Mbps 
HTTP Requests/s 
388 


图 7-3 NetScaler Dashboard 


> stat ns 


System overview 


Up since Tue Dec 9 19:07:31 2014 
Packet CPU usage ($) 0.70 
Management CPU usage ($) 1.8 
Memory usage (MB) 1567 
Memory usage ($) 23 


Last Transition time Suhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...015 
System state UP 


Master state Primary 

# SSL cards UP 8 

# SSL cards present 8 

System Disks Used ($) Available 

/flash Used ($) 5 3261 

/var Used ($) 7 272046 

Throughput Statistics Rate (/s) Total # 带 宽 流量 数据 
Megabits received 15 142072704 
Megabits transmitted 11 108391772 

TCP Connections Client Server #TCP 连 接 数据 

All client connections 6226 4212 

Established client connections 4425 1766 

HTTP Rate (/s) Total #HTTP 请 求 响应 数据 
Total requests 392 4272662940 


Total responses 388 4216867203 
Request bytes received 348978 3299637339741 


Response bytes received 1227524 10976507555707 
SSL Rate (/s) Total #HTTPS 数 据 
SSL transactions 0 121 
SSL session hits 0 13 
Integrated Caching Rate (/s) Total # 缓 存 数据 
Hits 0 0 
Misses 0 4216041005 
Origin bandwidth saved($) eF 0 
Maximum memory (KB) i 1048576 
Maximum memory active value (KB) I 1048576 
Utilized memory (KB) “sis. 14 


Compression 


Value # 压 缩 数据 


HTTP compression ratio 3b 
Total HTTP compression ratio 1.5 


Application Firewall 


Requests 

Responses 

Aborts 

Redirects 
Done 

» 


Rate (/s) 


oooo 


使 


如 下 命令 获得 vserver 的 状态 : 


stat lb vserver 
show lb vserver 


使 


如 下 的 命令 获 和 


得 service 的 状态 : 


stat service 


使 


:用 来 进行 


“ 不 推荐 普 


nsapimgr 查 看 或 者 修改 系统 内 核 参 数 。 
系统 调 优 和 信息 查看 的 工具 。 


和 通用 户 使 用 。 


“ 可 以 查看 TCP session 表 和 petsistence 表 等 。 


使 


如 下 命令 显示 目前 系统 内 核 的 参数 : 


# nsapimgr -d CFGPARAMS 


Displaying system 
12000 

0 

20 

200 

200 

20 

17915 

4 

8190 

4380 
18338676 
0 

0 
102224756 
2164260863 
596713514 
65606 

0 

0 

16960 

0 

0 

0 

7000 

1460 

5 

7000 

400 

12000 
6000 

3000 
4294967295 


88506378 
1 

6007 

0 
604800 
5 

4 

200 
200 

0 
10000 


m 


0 
0 
0 
0 
0 
0 
0 
0 


1000 
20 


's configured parameters http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 


cfg zombie timeout ticks 

cfg freemem pattern 

cfg max bridge collision 

cfg netio | loop : rxpkts limit 

cfg netio nic rxpkts limit 

cfg max congestion delay 

cfg max congestion limit 

cfg tcp initial congestion window 
cfg tcp advertised window 

cfg tcp syncookie i window 
netscaler default gateway 

cfg http Client connection idle timeout10ms 
cfg http server connection idle timeoutlOms 
netscaler netaddress 

netscaler netmask 

cfg bitopsO 

cfg bitopsl 

cfg bitops2 

cfg bitops3 

sw bitops10 

sw bitopsll 

sw bitops12 

sw bitops13 

cfg max fintimewaitconnections 


cfg max mss #MSS， 最 大 传输 单元 。 如 存在 MTU 的 问题 ， 关 注 该 什 


cfg max orphan pkts 

cfg statusintervalms 

cfg natpcb newconn idletimeout l0msticks 
cfg natpcb idletimeout lOmsticks 
cfg natpcb zombie timeout 10msticks 
cfg natpcb : reducedfintimeout 
cfg natpcb forceflush connlimit 
cfg srcnat 

cfg svr newconn rp timeout ticks 
cfg dns stats limit 

cfg max ooopkts 

netscaler mappedip 

cfg mappedip cnt 

cfg dns flush timeout 10msticks 
cfg dns cache minTTL 

cfg dns cache maxTTL 

cfg dns | cache maxretries 

Cfg ( | dns | resolver order 

cfgrun 1 netio | loop : rxpkts limit 
cfgrun netio nic rxpkts limit 
cfg regulator syn limit 

cfg dnserr limit 

cfg vpn def httpport 

cfg vpn add httpvserver 

cfg assert action 

cfg assert fp frequency 

cfg assert fp count 

cfg assert ad: | frequency 

cfg assert ad count 

cfg assert stall cpu time 

cfg assert stall cpu frequency 
cfg halfclose timeout 

cfg delayedack timeout 10msticks 
cfg tcp maxburst limit 

cfg tcp : slowstart . incr 

Cfg | | customl url rewrite 

cfg rba local auth fallback 
cfg | lowpri pkt | yield 

cfg lowpri max congestion limit 
ssl qntm size 

ssl enctrigger timer 

Ssl strict ca checks 

ssl no reneg . 

cfg csw state update 

cfg 14 Switch on 

cfg max corrupt forward 

cfg deltajs alertlevel 

cfg delta max size 

cfg traditional lconn 

cfg garponvridif 

cfg badsslcard failoverlimit 
cfg mon fast reprobe interval 


Total # 应 用 层 防火 墙 数据 


oooo 


4 cfg tcp ws value 
0 cfg ns enable > htmlinjection 
16 cfg dns max passive i rip 
3 cfg dns max lateral rip t depth 
8190 cfg tcp receive buffer size 
0 ssl disable : close | notify 
1 cfg htmlinj strict html 
1024 cfg htmlinj | tag : search len 
100 cfg zombie flushonepcb limit 
0 cfg add acl disabled 
1000 cfg tcp rto min ticks 
45 ssl enctrigger max pkt count 
1000 cfg rtsp svc to 


268435456 ssl crl maxmem 


T cfg ! tcp max retransmit pkts 
cfg tcp max pkt per mss 
cfg nagle algo enable 
cfg admin cache route info 
cfg | | client info: ' option 1 no 


cfg tcp server connection idle timeoutl0ms 
cfg any í client ， connection idle timeoutl0ms 
cfg any server ' connection : | idle 1 |. timeoutlOms 


0 
0 
1 
0 
0 cfg top : client | connection idle timeoutl0ms 
0 
0 
0 
0 


cfg allow any | http 
32768 cfg htmlinj window size 
1 cfg pass rst with ack 
10 cfg mbf peermac update lO0msticks 
83886080 cfg mem recoverlimit 
4 cfg num recovery pages 
102760448 cfg min threshold dyn mem pools 
0 cfg vpn allow trace 
4 cfg http compact incom trigger 
180000 cfg tcp badconn flush interval 
7000 cfg http max packet delay 
1 cfg bdggrp proxy arp 
0 cfg bdg setting 
10485760 ssl ocsp cache size 
1 ssl . encoding | type 
1250000 cfg min dosjs thruput 
200 gslb max shnsbs 
0 mcmx debug msg alloc failure 
0 gslb debug msg alloc failure 
1 cfg skip systemaccess policyeval 
1 cfg small window protection 
0 cfg small window threshold 
0 cfg small window probe interval 
4 cfg small -window | probes 
100 cfg small window cleanthresh 
700 cfg small window idletimeout 


1000 cfg small window surgeq threshold 


100000 cfg sp cache size 
100 cfg sp db queue length 
0 cfg nla no restart 
0 cfg wi sso | split . upn 
0 cfg immediate final ack 


500 cfg max vserver bindings to service 


cfg c2c failure frequency 
Cfg : assert c2cfail count 
cfg enable c2c failure group 
cfg disable c2c failure group 


cfg assert delay ioctl frequency 


cfg assert delay ioctl count 
cfg assert ioctl | delay | time 


cfg assert id alloc fail frequency 


cfg assert : | id alloc fail count 


cfg : assert sm ad count 

cfg assert delay mcmx frequency 
cfg assert delay mcmx count 
cfg assert mcmx delay time 


cfg reset : interface on ha failover 


cfg : Skip ] proxying 1 bsd traffic 
cfg iip ! netmask setbits 
cfg vpn client abortable | upgrade 
cfg vpn í | client : . logon 1 mode 
16384 cfg tcp max nsbsynholdct 
128 cfg tcp max synholdperprobe 


0 
0 
0 
0 
0 
0 
0 
0 
0 
0 cfg : assert : sm ad | frequency 
0 
0 
0 
0 
0 
0 
0 
1 
0 


1024 cfg tcp probe fastgiveup threshold 


40 cfg tcp max server probes 
255 cfg dns max pipeline 
1 cfg rstvalidation 
66916136789248 cfg bsd mac 
28643622248448 cfg non bsd mac 


Done. 


最 佳 实 践 40: NetScaler 监 控 


ns.log 监 控 


NetScaler 在 运 4 


于 过 程 中 ， 在 ns.log 里 面 会 记录 不 同 级 别 的 关键 信息 ， 其 中 local0.alert 级 别 是 大 家 需要 关心 的 。 如 下 所 示 为 HA 检测 到 对 方 宕 机 的 报警 : 


Aug 16 09:56:10 «local0.alert» x.y.z.134 08/16/2015:01:56:10 GMT NSIP01 PPE-0 : 


EVENT STATECHANGE 3011 : 


Device "remote node x.y.z.135" - State DOWN 


使 


如 下 的 脚本 可 以 对 ns.log 进 行 监控 : 


# crontab -1 


*/5 * * * * /usr/bin/perl /root/checkstat.pl »/dev/null 2»/dev/null 


# cat /root/checkstat.pl 
#!/usr/bin/perl 

use strict; 

use warnings; 

use Net::SMTP; 


sub send mail ( 


my $from = 'xufengnju8163.com'; 
my ( $to, $subject, $content ) = Q ; 
my $smtp = Net::SMTP-»new( 
"x.Y.z.88'，#SMTP 转 发 服务 器 
Timeout => 30, 
Debug = 0, 
) 7 
$smtp-»mail ($from); 
$smtp-»to ($to) ; 
$smtp-»data(); 
$smtp-»datasend("To: $toWn"); 
$smtp-»datasend( "From: $from" . "An" ) 
$smtp-»datasend( "Subject: " . $subject . "Wn" 
$smtp-»datasend ("An") ; 
$smtp-»datasend ($content) ; 
$smtp-»dataend(); 


#close socket;disconnect from smtp server 
$smtp-»quit; 


my $filerotate = 0; 


my Gtos = ( '152216129600139.com' ); 
my $subject = 'netscaler alert'; 
my $myfile = '/var/log/ns.log'; 


open( MYFILE, '«', $myfile ) or die $!; 
while («MYFILE») ( 
chomp; 
if ($ =~ /localO0.alert/ ) ( 
$filerotate - 1; 
my $content = $ ; 
foreach my $to (etos) ( 
&send mail( $to, $subject, $content ); 
) 
l 


} 

close (MYFILE); 

if ($filerotate) ( 
my $t = time(); 
system("/bin/mv /var/log/ns.log /var/log/ns.log.bak$t"); 
system("/usr/bin/killall -HUP syslogd"); 


另外 ，ns.log 中 ， 同 时 会 记录 对 后 端 服务 器 的 健康 检查 的 报警 信息 ， 需 要 定时 查看 或 者 统一 传 到 日 志 服务 器 进行 集中 分 析 。 


NetScaler 通 过 SNMP 方 式 可 以 提供 给 Zabbix 数 据 ， 以 进行 画图 和 报警 。Ctrix 官 方 发 布 了 Zabbix 模 板 ， 可 以 参考 以 下 链接 进行 设置 : https;//share.zabbix.com/network devices/netscaler, 


最 佳 实 践 41: NetScalerBHEEE2EBHEESE 


1) 查看 Netscaler 磁 盘 空间 。 使 用 如 下 命令 : 


# df -ah 

Filesystem Size Used Avail Capacity Mounted on 
/dev/md0c 204M 197M 2.9M 99% 

devfs 1.0K 1.0K 0B 100% /dev 
procfs 4.0K 4.0K 0B 100% /proc 
/dev/ad4sla 3.7G 208M 3.2G 6% /flash 
/dev/ad0sle 312G 11G 276G 4% /var 


2) 查看 NetScaler 日 志 。 使 用 如 下 命令 : 


# cat /var/log/ns.log |grep local0.alert 
# cat /var/log/ns.log |grep local0.info 


3) 查看 vserver 和 service 的 统计 信息 。 使 用 如 下 命令 : 


# nsconmsg -K /var/nslog/newnslog -s ConLb-2 -d oldconmsg 
VIP(x.y.z.56:80:DOWN:WEIGHTEDRR): Hits(0, 0/sec) Mbps(0.00) Pers(OFF) Err(0) SO(0) LConn BestlIdx: 1024 
Pkt(0/sec, 0 bytes) actSvc(0) DefPol(RR) override (0) 
Conn: Clt(0, O0/sec, OE[0]) Svr(0) 
slimit so: (local: O(PPE-0), shared: 0, SOthreshhold: 0) 
$(10.128.70.74:80:DOWN) Hits(0, O/sec, P[0, 0/sec]) ATr (0:0) Mbps (0.00) BWlmt (0 kbits) RspTime(0.00 ms) Load(0) LConn Idx: (C:0; V:0,1:1) 
Other: Pkt(0/sec, 0 bytes) Wt(1) Wt(Reverse Polarity) (10000) 
Conn: CSvr (0, 0/sec) MCSvr (0) OE(0) E(0) RP(0) SO(0)# 特 别 关注 此 行 ， 当 前 服务 器 的 连接 数 、 最 高 连接 数 、 队 列 信息 等 。 
slimit maxClient: (local: O(PPE-0), shared: 0, maxClt: 0) 


Oza 


上 述 代码 中 ，“nsconmsg 区 ”中 ， 是 大 写 的 区， 不 是 小 写 的 K。 


4) 使 用 nstcpdump.sh 抓 取 网 络 通信 情况 。 使 用 如 下 命令 : 


# nstcpdump.sh -h 

nstcpdump.sh: utility to view/save/sniff LIVE packet capture on NETSCALER box 
tcpdump version 3.9.4 

libpcap version 0.9.4 


Usage: tcpdump [-aAdDeflLnNOpqRStuUvxX] [-c count] [ -C file size ] 
[ -E algo:secret ] [ -F file ] [ -i interface ] [ -M secret ] 
[ -r file ] [ -s snaplen ] [ -T type ] [ -w file ] 
[ -W filecount ] [ -y datalinktype ] [ -2 user ] 


[ expression ] 


NOTE: tcpdump options -i, -r and -F are NOT SUPPORTED by this utility 


最 佳 实践 42: NetScaler Surge Protection 引 起 的 问题 案例 


在 NetScaler 基 本 负载 均衡 核心 参数 配置 中 ， 讲 到 了 参数 sp (Surge Protection, RBP) 。 那 么 什么 是 Surge Protection 呢 ? 


在 大 量 客户 端 并 发 请 求 的 时 候 ， 后 端 服务 器 会 因为 压力 过 大 导致 响应 变 慢 而 无 法 服务 新 的 请 求 。Surge Protection 确 保 客户 端的 大 量 并 发 连接 和 请 求 以 后 端 服务 器 可 以 接受 的 速率 进行 转发 。 这 看 上 去 
是 很 好 的 特性 ， 但 其 初始 值 过 小 ， 为 200。 在 某 些 业务 场景 下 会 导致 客户 端 超时 。 


我 们 的 一 款 免费 短信 APP， 同 时 在 线 用 户 数 规模 很 大 。 在 一 段 时 间 内 ， 发 现 后 端 服务 器 (Nginx) 上 出 现 了 数量 巨大 的 499 错 误 。 后 端 服务 器 被 NetScaler 负 载 均 衡 。 


其 中 一 台 上 的 某 天 的 统计 数据 如 下 (第 一 列 是 499 错 误 数量 ) : 


2537 /opt/logs/activities.y.sdo.com access.log 
48 /opt/logs/dl.plugin.y.sdo.com access.log 
123024 /opt/logs/enterprise.apps.y.sdo.com access.log 
2436 /opt/logs/file.y.sdo.com access.log 
8 /opt/logs/fsms.app.y.sdo.com access.log 
426 /opt/logs/https log S2.y.sdo.com access.log 
426 /opt/logs/https log.y.sdo.com access.log 
7617 /opt/logs/img.y.sdo.com access.log 
12960 /opt/logs/jieriduanxin.y.sdo.com access.log 
110 /opt/logs/localhost access.log 


318958 /opt/logs/log S2.y.sdo.com access.log 
339409 /opt/logs/log.y.sdo.com access.log 
53717 /opt/logs/mcash.apps.y.sdo.com access.log 
380 /opt/logs/media.wine.y.sdo.com.log 
132 /opt/logs/ms.app.y.sdo.com access.log 
267 /opt/logs/msg.apps.y.sdo.com access.log 
1785 /opt/logs/n.sdo.com access.log 
3 /opt/logs/openlog.y.sdo.com access.log 
116869 /opt/logs/plugin.y.sdo.com access.log 
1526 /opt/logs/resources.y.sdo.com access.log 
364 /opt/logs/scene.apps.y.sdo.com access.log 
108 /opt/logs/task.y.sdo.com.log 
2463 /opt/logs/wine.y.sdo.com.log 
721 /opt/logs/y.to access.log 


通过 抓 包 发 现 ， 从 NetScaler 收 到 请 求 到 NetScaler 向 后 端 转发 请 求 ， 最 长 的 间隔 超过 了 54s， 此 时 客户 端 因为 超时 而 中 断 了 连接 。 通 过 NetScaler 排 错 步 骤 推 荐 的 步骤 (3) 可 以 看 到 SQ (Surge 
Queue) 比较 大 ， 说 明 是 因为 Surge Protection 引 起 的 。 


由 此 建议 把 Surge Protection 这 个 特性 关闭 。 使 用 如 下 命令 : 


> disable ns feature SurgeProtection 


最 佳 实践 43: LVS、HAProxy、Nginx、NetScaler 的 大 对 比 


LVS、HAProxy、Nginx 和 NetScaler 是 运 维 工 程 师 在 工作 中 常见 的 负载 均衡 方案 ， 那么 它们 分 别 有 什 么 特点 呢 ? 现 总 结 为 表 7-1。 


表 7-1 


NetScaler LVS-DR LVS-NAT LVS-Tun HAProxy 


中 


负载 均衡 方案 对 比 表 


Nginx 


复杂 度 


In 
吞吐 量 高 最 高 中 
TCP 负载 均衡 | 支持 支持 支持 


HTTP 负载 
均衡 


基于 内 容 交换 |£ 不 支持 不 支持 支持 


按照 TCP 调度 


URL rewrite | 支持 不 支持 不 支持 支持 

Cache 支持 不 支持 不 支持 支持 

网 络 层 透 传 客 
户 端 地 址 BON 


服务 器 连接 | 支持 (USIP 


复 用 


HTTP 层 传 客 
户 端 IP 


后 端 健康 检查 =p 支持 (备注 1) 
双 机 热 备 支持 (备注 1) 


结合 Keepalived 或 者 Ldirectord。 


支持 


为 NO) 


支持 


支持 (备注 1) | 支持 ( i 
i 支持 (备注 1) 


备注 1: 


参照 表 7-1， 可 以 根据 不 同 的 业务 需求 进行 合理 的 选择 。 


最 佳 实践 44: 中 小 型 网 站 负载 均衡 方案 推荐 


在 网 站 类 业务 的 发 展 过 程 中 ， 根 据 业 务 不 同 的 发 展 阶段 和 访问 量 的 情况 ， 可 以 考虑 按照 以 下 步骤 来 实施 负载 均衡 。 


在 日 访问 量 在 3000 万 PV 以 下 时 ， 使 


简单 的 DNS 轮 询 配合 监控 ， 基 本 上 可 以 满足 业务 需求 了 。 


在 日 访问 量 达 到 3000 万 PV 时 ,使 用 Nginx 作 为 反 向 代理 。 如 果 对 高 可 用 要 求 不 高 ， 可 以 使 用 单 台 Nginx， 另 外 加 强 监 控 ， 出 现 故障 时 ， 由 系统 运 维 工 程 师 进行 干预 恢复 业务 。 一 般 采 用 Nginx 一 Web 服 
务 器 集群 的 架构 。 


在 日 访问 量 在 3000 万 PV~1 亿 PV 时 ， 可 以 使 F 


HAProxy+Keepalived 一 Nginx 一 Web 服 务 器 集群 的 架构 。HAProxy 负 责 TCP 负 载 均 衡 ，Nginx 负 责 7 层 调度 ，Nginx 可 以 配置 多 台 进行 负载 分 担 。 


在 日 访问 量 达到 1 亿 PV 以 上 时 ， 采 用 LVS-DR+Keepalived 一 Nginx 一 Web 服 务 器 集群 的 架构 。LVS-DR 负 责 TCP 负 载 均衡 ，Nginx 负 责 7 层 调度 ，Nginx 可 以 配置 多 台 进行 负载 分 担 。 在 此 架构 中 ，DR 模 


式 的 LVs 配 置 可 以 最 大 限度 地 提升 吞吐 量 。 在 预算 可 以 接受 范围 内 ， 考 虑 把 LVS-DR 模 式 蔡 换 为 NetScaler。 


是 


本 章 小 结 


NetScaler 是 商业 负载 均衡 和 高 可 用 方案 的 实现 ， 在 某 些 中 大 型 网 站 和 系统 中 可 能 会 有 部 署 。 


本 章 通过 介绍 NetScaler 的 基本 配置 、 内 容 交 的、 高 级 运 维 、 排 错 、 案 例 和 监控 等 ， 让 读者 对 NetScaler 有 了 直观 的 理解 ， 对 最 佳 配置 方案 有 了 深入 的 学 习 。 在 日 后 的 工作 中 ， 对 此 商业 设备 的 使 用 会 比较 得 
心 应 手 。 


第 8 章 ”配置 高 性 能 网 站 


下 载 软 件 、 查 天 气 、 看 新 闻 、 论 坛 发 帖 ， 这 些 几 乎 是 人 们 每 天 都 在 做 的 事情 。 人 们 享受 到 的 这 些 服务 ， 大 部 分 是 通过 网 站 的 形式 提供 的 。 
通过 使 用 HTTP 协 议 ( 或 者 HTTPS， 安 全 的 HTTP 协 议 ) ， 网 站 提供 了 以 下 几 类 典型 的 服务 。 

“ 资源 下 载 : 例如 ， 系 统 软 件 Windows 镜 像 、 应 用 软件 Office、 游 戏 客户 端 等 。 

“ 信息 展示 : 例如 ， 新 闻 、 财 经 指数 、 公 告 等 。 


“ 信息 发 布 : 例如 ， 论 坛 发 帖 、 博 客 发 布 等 。 


“在线 交易 : 例如 ， 在 线 购物 、 在 线 支付 、 团 购 等 。 


人 们 的 生活 越 来 越 依赖 于 各 种 各 样 网 站 提供 的 丰富 多 样 的 信息 和 功能 ， 作 为 技术 运 维 ， 也 经 常会 遇 到 配置 和 维护 网 站 的 要 求 ， 小 到 创业 公司 的 门户 网 站 ， 大 到 服务 全 球 用 户 的 交互 网 站 等 。 因 此 ， 必 须 
掌握 配置 高 性 能 网 站 的 技术 。 


本 章 从 深入 理解 HTTP 协 议 开始 ， 然 后 具体 讲解 怎样 配置 各 种 不 同类 型 的 高 性 能 网 站 ， 最 后 ， 对 网 站 的 监控 提出 全 方位 的 解决 方法 。 


最 佳 实践 45: 深入 理解 HTTP 协 议 


HTTP 协 议 是 基于 TCP 协 议 之 上 的 应 用 层 协议 ， 是 浏览 器 (客户 端 ) 和 服务 器 端 进行 交互 使 用 的 “提前 约定 的 格式 化 语言 ”。 本 节 将 研究 HTTP 协 议 通信 的 网 络 模型 ， 然 后 使 用 辅助 工具 来 分 析 一 个 典型 
的 HTTP 访 问 。 


HTTP 协 议 通信 的 网 络 模型 


为 了 简化 问题 的 复杂 性 ， 在 理解 该 模型 时 基于 如 下 架设 。 
“ 服务 器 端 设置 了 Keepalive。 关 于 Keepalive 的 详细 讲解 ， 请 参考 本 章 “ 最 佳 实践 46: 配置 高 性 能 静态 网 站 ”部 分 。 
:浏览 器 连续 请 求 了 同一 个 域名 下 两 个 资源 文件 。 


:浏览 器 和 服务 器 端 网 络 通畅 ， 未 发 生 重 传 问题 。 


到 8-1 展 示 了 HTTP 协 议 通讯 的 网 络 模型 。 


浏览 器 


Socket Connect 


SYN SENT 


TCP Connection 
Establishing Phase 


ESTABLISHED 


TCP SYN 


TCP SYN-ACK 


ACK 
HTTP Request 1 


HTTP Reponse 1 
HTTP Request 2 


HTTP Reponse 2 


Socket [— s 
Close [FIN_WAIT 1 TCP FIN 
TCP Connection Close 
Phase TCP ACK 
FIN_WAIT 2 
TCP FIN 


TIME WAIT 


TCP ACK 


图 8-1 HTTP 协 议 通讯 的 网 络 模型 


如 图 8-1 所 示 ， 完 整 的 HTTP 协 议 通 信 从 大 的 时 间 阶 段 方面 来 说 ， 依 次 经 过 以 下 3 个 阶段 。 


H 


(1) TCP 连 接 建 立 阶段 (TCP Connection Establishing Phase) , 


(2) HTTP 协 议 通 讯 阶段 (HTTP Phase) ， 此 时 浏览 器 发 送 HTTP 请 求 ， 网 站 服务 器 产生 响应 。 在 开启 服务 器 端 Keepa 
通信 阶段 ， 网 站 服务 器 端 对 应 于 浏览 器 的 每 一 个 请 求 ， 都 产生 唯一 一 个 响应 ， 即 对 于 浏览 器 和 网 站 服务 器 端 来 说 ， 双 方 是 采 


(3) TCP 连 接 销 毁 阶段 (TCP Connection Close Phase) ， 在 浏览 器 确认 没有 后 续 请 求 后， 浏览 器 调用 
有 后 续 请 求 了 ， 你 如 果 没 有 数据 要 发 送 给 我 ， 你 也 可 以 关闭 了 ) 。 服 务 器 端 确认 没有 更 多 的 数据 需要 传输 后 ， 则 同样 调 


Soc 


在 分 析 了 HTTP 协 议 通信 的 网 络 模型 后 ， 再 来 重点 分 析 以 上 3 个 阶段 中 HTTP 协 议 通信 阶段 的 工作 内 容 。 


一 次 HTTP 请 求 的 详细 分 析 
在 进行 HTTP 协 议 分 析 时 ， 可 以 借助 一 些 强大 的 辅助 软件 。 在 此 ， 推 荐 以 下 两 款 。 


:HttpWatch。 该 软件 直接 在 浏览 器 中 激活 ， 可 以 分 析 浏览 器 和 网 站 服务 器 间 通 信 的 头 部 信息 、 
分 析 任何 网 站 ) 。 它 同时 支持 IE、Firefox 等 主流 浏览 器 。 


“ Firefox Web Developer Tools。 在 Firefox 的 最 新 版 本 (当前 为 44.0.2) 中 ， 自 带 该 分 析 工 具 。 它 同样 可 以 实现 类 似 HttpWatch 的 功能 ， 但 在 使 用 方式 和 展现 形式 上 有 所 区 别 。 另 外 ， 顾 名 思 义 ， 


Firefox。 
本 文 使 用 Firefox Web Developer Tools 进 行 HTTP 协 议 分 析 。 该 工具 的 使 用 步骤 如 下 。 
1) 打开 一 个 空白 的 Firefox Tab 页 。 


Ctrl+ Shift+ Delete 快 捷 键 打开 清理 历史 记录 的 界面 ， 如 图 


2) 使 


8-2 所 示 ， 选 择 时 间 范 围 Everything， 在 Details 内 容 中 ， 


网 站 服务 天 
Socket Listen 
Socket Accept 
SYN RCVD 


TCP Connection 
Establishing Phase 


ESTABLISHED 


LL meme 


CLOSE WAIT 


Socket 
Close 


LAST ACK 


TCP Connection Close 


Phase 


浏览 器 和 网 站 服务 器 通过 3 次 握手 分 别 到 达 ESTABLISHED 状 态 。 


ive 后 ， 在 同一 个 TCP 连 接 上 ， 浏 览 器 可 以 依次 发 起 多 个 HTTP 请 求 。 在 HTTP 协 议 


“一 间 一 答 ”的 形式 。 


Socket Close 系 统 函 数 ， 向 服务 器 端 表明 本 端 关闭 写 入 (也 就 是 说 浏览 器 通知 服务 器 端 ， 我 没 


进入 Closed 状 态 。 


et Close 系 统 函 数 关闭 本 端 写 入 。 双 方 Socket 端 


容 、 时 间 消 耗 分 析 等 。 它 分 Basic 版 (免费 ， 仅 仅 可 以 分 析 部 分 知名 网 站 ) 和 Professional 版 (收费 ， 可 以 


它 只 适用 于 


全 部 选中 ， 点 击 Clear Now 按 钮 。 


Clear All History 


All history will be cleared. 


This action cannot be undone. 


ctive Logins 
vofffine Website Data 
ite Preferences 


82 ”历史 记录 清理 
注意 


该 步骤 必 不 可 少 ， 否 则 可 能 导致 本 地 缓存 使 得 分 析 结 果 不 准确 。 


3) 使 用 Ctrl+Shift+| 快 捷 键 ， 打 开 Firefox Web Developer Tools， 输 入 网 站 URL 即 可 。 


以 凤凰 网 资讯 频道 首页 (网 址 http://news.ifeng.com/) 为 例 ， 在 加 载 完成 后 ， 可 以 看 到 Firefox Web Developer Tools 右 下 角 出 现 本 页 面 的 请 求 总 数 、 字 节 数 、 耗 时 。 在 点 击 某 个 具体 的 URL 后 ,可 以 
看 到 该 请 求 和 响应 的 情况 ， 如 图 8-3 所 示 。 


黑色 框 中 概括 了 该 请 求 和 响应 的 情况 ， 包 括 请 求 的 URL (Request URL) 、 请 求 的 方法 (Request method) 、 网 站 服务 器 地 址 (Remote address) 、 响 应 状态 码 (Status code) 、HTTP 协 议 版 本 
(Version) 。 这 部 分 内 容 比较 简单 ， 在 此 不 再 袭 述 。 下 面 重点 分 析 请 求 头 部 (黑色 实心 圆圈 数字 表示 ) 和 响应 头 部 (空心 圆圈 数字 表示 ) 的 内 容 和 它们 的 工作 机 制 。 


Headers Params Timings 


Rec URL: Fhttp://ncws.ifcng.com 
Request method: GET 


Remote address; 115.251.22.80:80 
Status code: © 260 OK Edit and Resend Raw headers 


sion: HTTP/1 .1 


"ter headers 


* Response headers (0.377 KB) 
(I) Cache-Control: 'max-age=120" 
(2) Connection: "keep-alive" 
© Content-Encoding: “gzip” 
(A) Content-Type: “text/html; charset=utf-8" 


5 Date: 'Tue, 23 Feb 2016 06:47:21 GMT" 

[b Expires: "Tuc, 23 Feb 2016 06:49:09 GMT” 

(D Server: "Tengine/2.1.0* 

® Transfer-Encoding: “chunked” 

E X-VCache: "HIT BV ifeng www157 sjs" 

[D X-Via: "1.1 nshx75:8105 [Cdn Cache Server V2.0), 1.1 huzhou34:0 (Cdn Cache Server V2.0)* 
* Request headers (0.307 KB) 

Jj) Host: 'newsifeng.com" 

P) User-Agent: "Mozilla/5.0 (Windows NT 6.1: Win64: x64: rv:44.0) Gecko/20100101 Firetox/44.0* 
B) Accept: "text/html application/xhtmbexml,application/xrrl;q-0.9,*/*:3- 0.8" 

E) Accept-Language: "en-US zh-CN:q=0.8,zh:q=0.5,en:q=0.3" 

51 Accept-Encoding: “gzip, deflate” 

O Connection: "keep-alive" 


图 8-3 ”凤凰 网 资讯 频道 首页 HTTP 分 析 


HTTP 协 议 请 求 头 部 详解 。 


人 @@Host 字 段 表 明 浏 览 器 希望 访问 的 资源 所 在 的 域名 。 同 时 ， 使 用 Host 字 段 ， 可 以 允许 在 同一 个 网 站 服务 器 的 IP 上 配置 服务 多 个 域名 的 站 点 。 


人 @User-Agent 字 段 表明 浏览 器 的 名 称 、 版 本 、 操 作 系 统 信息 等 。 


合 、@、 全 字段 用 于 浏览 器 和 网 站 服务 器 进行 内 容 协商 。 其 中 ， 信 text/html，application/xhtml+xml，application/xml; q=0.9，*/*; q=0.8 在 解读 时 ， 首 先 使 用 “，” 分 割 ， 也 就 是 依次 分 为 
text/html、application/xhtml+xml、application/xml; q=0.9、*/*; q=0.8。q 参 数 表示 浏览 器 对 这 种 类 型 的 输出 的 喜好 程度 ， 如 果 没 有 q 参 数 ， 则 默认 是 1 (如 前 两 个 类 型 的 输出 ) 。 最 后 一 个 */*; 
q=0.8 表 示 浏 览 器 接收 任何 类 型 的 输出 ， 但 它 更 倾向 于 网 站 服务 器 给 它 输出 前 3 种 内 容 类 型 。 @Accept-Language 表 示 浏 览 器 依 喜 好 服务 器 给 它 输出 英文 和 中 文 内 容 。 @Accept-Encoding 表 示 浏览 器 支持 
服务 器 端 使 用 gzip 和 deflate 对 输出 内 容 进 行 压缩 。 在 Firefox 中 ， 使 用 about: config 可 以 看 到 以 上 3 项 内 容 的 设 定 ， 如 图 8-4 所 示 。 


(€) Ð Firefox | aboutconfig 


Search: | accept 


Preference Name - | Status | Value 


datareporting.policy.datasubmissionPolicyAcceptedVersion user set 2 

imagc.http.accept default image/png,image/*;q=0.8,*/*;q=0.5 
intLacccpt languages user set i en-uz,zh.cn,zh,con 
networl-cookie.alwaycAcceptSescsionCoolaec defauk false 

network http.accept-encoding default i gzip. deflate 


networkhttp.accept-encoding.secure default i gzip, deflate, br 
networkhttpaccept.defauit default i text/html.application/xhtmxml,application/xml;q-0.9,*/*:q- 0.8 


图 8-4 。 Firefox 内 容 协 商 的 配置 字段 
@Cconnection 字 段 表 明 浏 览 器 是 否 支 持 长 连接 (Keepalive) 。 
HTTP 协 议 响 应 头 部 详解 。 
@Cache-Control 和 人 @Expires 字 段 控制 该 资源 在 浏览 器 的 缓存 时 间 。 


@Connection 字 段 通知 浏览 器 可 以 在 同一 个 TCP 连 接 上 发 送 多 个 HTTP 请 求 。 


@Content-Encoding 和 全 Accept-Encoding 对 应 ， 告 诉 浏览 器 本 次 使 用 gzip 压 缩 HTTP 响 应 内 容 。 


@Content-Type 字 段 和 合 Accept 对 应 通知 浏览 器 使 用 对 应 的 方法 来 解析 HTTP 内 容 。 


@Date 表 示 当 前 网 站 服务 器 产生 HTTP 响 应 时 的 时 间 。 


@Server 表 示 网 站 服务 器 使 用 的 软件 。 


@Transfer-Encoding 表 示 网 站 服务 器 使 用 的 传输 方法 。 在 服务 器 向 浏览 器 输出 HTTP 响 应 体 的 过 程 中 ， 有 两 种 方法 : 一 种 是 通过 Content-Length 告 诉 浏览 器 ， 本 次 HTTP 响 应 体 的 大 小 ， 浏 览 器 在 收 到 
此 大 小 的 响应 体 后 即 可 确认 接收 完毕 ， 这 种 方法 一 般 用 在 静态 文本 文件 .html、.js、.css 等 ; 另外 一 种 方法 是 chunked， 这 时 ， 服 务 器 并 不 在 HTTP 响 应 头 部 中 告诉 浏览 器 本 次 需要 传输 的 响应 体内 容 大 小 ， 而 
是 分 多 段 传输 ， 在 最 后 一 段 传输 内 容 使 用 0 字 节 表示 传输 完毕 ， 这 种 方法 一 般 用 于 图 片 等 本 身 使 用 chunks 存 储 的 静态 文件 及 动态 程序 输出 的 内 容 等 。 例 如 ， 要 传输 以 下 内 容 : 


Wikipedia in 


chunks. 


则 分 3 段 传输 时 ， 服 务 器 端 输出 的 方法 如 下 : 


A\r\n 
Wiki\r\n 
5\r\n 
pedia\r\n 


chunks. \r\n 
O\r\n 
yeyi 


@ 和 @ 为 网 站 服务 器 自 定义 字段 ， 用 于 打印 例如 缓存 命中 节点 等 信息 。 


通过 对 图 8-4 的 分 析 及 扩展 知识 补充 ， 读 者 对 HTTP 协 议 的 请 求 和 响应 控制 头 部 应 该 有 了 充分 的 理解 。 这 些 技术 分 析 ， 对 于 配置 一 个 高 性 能 网 站 是 必 备 的 储蓄 。 


最 佳 实践 46: 配置 高 性 能 静态 网 站 


“ 提供 图 片 、JavaScript、CSS 等 构成 页 面 元 素 的 访问 的 站 点 。 


“ 提供 下 载 类 的 站 点 ， 如 游戏 客户 端 、 软 件 安装 程序 等 。 


本 节 将 针对 这 两 种 类 型 的 站 点 ， 给 出 配置 高 性 能 服务 的 方法 。 


缓存 配置 方法 


在 网 站 中 ， 有 很 多 资源 可 能 出 现在 多 个 页 面 中 被 调用 到 ， 比 如 公共 的 JavaScript (例如 jQuery，jquery-1.12.1.minjs) 等 。 通 过 配置 合理 的 缓存 机 制 ， 可 以 让 浏览 器 在 访问 不 同 页 面 时 ， 不 需要 多 次 连 
接 到 网 站 服务 器 上 获取 这 样 一 些 重复 调用 的 资源 ， 从 而 减少 浏览 器 等 待 的 时 间 ， 提 升 用 户 访问 网 站 的 体验 。 


在 Nginx 中 ， 使 用 如 下 方式 设置 服务 器 端 发 出 通知 浏览 器 进行 指定 资源 缓存 的 指令 : 


location ~ \. (gifljpgljpeglpng|bmplico|lcss|js)S ( 
root /var/www/static; 
expires max; 


} 


expires 指 令 控 制 HTTP 应 答 中 的 Expires 和 Cache-Control 的 头 部 信息 。 


语法 : expires[timelepoch|maxloff] 


其 中 : 

time: 可 以 使 用 正 数 或 负数 。Expires 头 部 信息 的 值 将 通过 当前 系统 时 间 加 上 设 定 time 值 来 设 定 。time 值 还 控制 Cache-Control 的 值 。 负 数 表示 no-cache; 正 数 或 零 表示 max-age=time。 
- epoch: 指定 Expires 的 值 为 1 January, 1970, 00: 00: 01 GMT, 

- max: 指定 Expires 的 值 为 31 December203723: 59: 59GMT，Cache-Control 的 值 为 10 年 。 

“ -1: 指定 Expires 的 值 为 当前 服务 器 时 间 -1s， 即 永远 过 期 。 


“ off: 不 修改 Expires 和 Cache-Control 的 值 ， 此 为 默认 值 。 


expires 使 用 了 特定 的 时 间 ， 并 且 要 求 服务 器 和 客户 端 是 严格 同步 。 而 Cache-Control 是 用 max-age 指 令 指 定 组 件 被 缓存 多 久 。 


对 于 不 支持 http1.1 的 浏览 器 ， 需 要 expires 来 控制 ， 所 以 最 好 能 指定 两 个 响应 头 。 但 HTTP 规 范 规 定 max-age 指 令 将 重 写 expires 头 。 


压缩 配置 方法 


通过 配置 网 站 服务 器 进行 输出 压缩 ， 可 以 减少 HTTP 响 应 传输 的 数据 量 ， 从 而 提高 网 站 页 面 加 载 速度 。 在 Nginx 中 ， 配 置 压缩 的 方法 是 : 


gzip on; 
gzip types text/html text/css text/xml application/javascript text/plain; 


防盗 链 的 配置 方法 


盗 链 是 指 本 网 站 的 图 片 等 资源 链接 被 使 用 到 了 其 他 非 授 权 的 网 站 页 面 上 。 对 于 被 盗 链 的 网 站 来 说 ， 被 消耗 了 大 量 带 宽 和 服务 器 资源 ， 但 没有 产生 任何 价值 。 通 过 配置 网 站 服务 器 对 收 到 的 请 求 中 的 
Referer 进 行 检查 ， 可 以 有 效 避 免 静 态 资源 被 第 三 方 网 站 资 链 。 


HTTP Referer 是 HTTP 请 求 头 部 信息 的 一 部 分 ， 当 浏览 器 向 网 站 服务 器 发 送 请 求 的 时 候 ， 一 般 会 带 上 Referer， 告 诉 服务 器 是 从 哪个 页 面 链接 过 来 的 ， 服 务 器 因此 可 以 获得 一 些 信息 用 于 处 理 。 


在 Nginx 中 ， 对 图 片 资源 进行 防盗 链 的 方法 如 下 : 


location ~ V. (jpgljpeglpng)$ { 
valid referers none blocked *.xufeng.info; 
if (Sinvalid referer) ( 
return 403; 


} 


图 片 剪 裁 的 方法 


随 着 社交 型 网 站 和 应 用 的 发 展 ， 由 用 户 产生 的 内 容 (User-generated Content, UGC) 越 来 越 多 。 其 中 ， 数 量 最 多 、 访 问 量 最 大 的 就 是 用 户 上 传 的 图 片 。 对 这 些 图 片 进行 合 理 控制 、 剪 裁 ， 可 以 减少 
存储 的 使 用 量 ， 减 少 用户 访 问 图 片 的 等 待 时 间 ， 提 高 用 户 访问 体验 。 


在 Linux 系 统 中 ， 使 用 的 剪裁 工具 是 ImageMagick (http://www.imagemagick.org) 。ImageMagick 包 含 了 一 组 处 理 图 片 的 命令 行 工 具 。 人 们 可 能 对 GUI 的 图 片 处 理工 具 并 不 陌生 ， 例 如 GIMP 和 
Photoshop 等 。 但 是 ，GUI 的 工具 在 很 多 情况 下 并 不 方便 使 用 ， 比 如 需要 在 网 站 服务 器 上 用 脚本 调用 处 理 图 片 的 时 候 或 者 需要 批量 处 理 的 时 候 。 在 这 些 情 况 下 ，ImageMagick 就 很 实用 了 。 


ImageMagick 的 安装 方法 : 


# yum -y install ImageMagick 


使 用 如 下 命令 验证 : 


# convert -version 

Version: ImageMagick 6.7.2-7 2015-07-23 Q16 http://www.imagemagick.org 
Copyright: Copyright (C) 1999-2011 ImageMagick Studio LLC 

Features: OpenMP 


以 用 户 上 传 一 张 1024*768 像 素 的 图 片 1jpg 为 例 ， 把 它 剪 裁 为 原 像素 50% 的 图 片 2jpg， 使 用 的 命令 如 下 : 


convert 1.jpg -resize 50$ 2.jpg 

identify 1.jpg 2.jpg 

jpg JPEG 1024x768 1024x768+0+0 8-bit DirectClass 846KB 0.000u 0:00.000 

jpg[1] JPEG 512x384 512x384+0+0 8-bit DirectClass 267KB 0.000u 0:00.000 对 比 1.jpg，2.jpg 存 储 空间 减少 了 68% 


Mop E 


减少 Cookie 携 带 


在 浏览 器 首次 访问 动态 网 站 时 ， 服 务 器 端 通过 发 送 Set-Cookie 指 令 ， 能 够 让 浏览 器 在 后 续 访问 指定 域名 的 页 面 时 ， 携 带 该 Cookie 信 息 ， 以 能 够 在 服务 器 端 继续 识别 该 用 户 端的 状态 。 例 如 是 否 登录 、 个 
性 化 设置 等 。 如 果 在 访问 静态 网 站 时 ， 浏 览 器 依然 携带 了 这 些 Cookie， 那 么 必然 会 造成 没有 价值 的 数据 流量 (因为 此 时 服务 器 端 并 没有 对 该 Cookie 的 内 容 做 任何 的 分 析 和 利用 ) 。 在 高 并 发 时 ， 这 些 消耗 将 
被 严重 放大 。 


下 面 以 Cookie 为 例 ， 内 容 达 到 556 字 节 ， 如 果 每 次 都 携带 这 些 数据 访问 每 个 图 片 、CSS 等 ， 那 么 损耗 的 带宽 是 巨大 的 。 


"UOR-,news.sina.com.cn,; SINAGLOBAL-210.51.28.230 1456210015.377336; ULV=1456796149689:7:2:2:61.172.240.228 1456796147.38634:1456796147677; vjuids--11466645b.1530ce187ce.0.990e 


解决 这 个 问题 的 方法 是 在 配置 静态 文件 时 ， 使 用 和 主 站 完全 不 同 的 域名 。 例 如 ， 提 供 动态 内 容 的 网 站 域名 是 www.xufeng.info， 那 么 ， 可 以 再 申请 img.xufengimg.info、css.xufengimg.info 等 域名 用 
于 提供 图 片 、CSS 等 的 访问 。 


实现 静态 文件 的 安全 下 载 


在 一 些 应 用 场景 下 ， 需 要 对 提供 的 下 载 文件 进行 验证 ， 防 止 非 授权 的 用 户 访问 到 这 些 资源 ， 例 如 在 验证 真实 用 户 登录 后 才能 够 下 载 的 软件 、 在 付费 后 才 可 以 下 载 的 音 视频 等 。 在 这 些 情况 下 ， 提 供 以 下 
两 种 方案 。 


- 使 用 ngx_http_secure_link_module 模 块 。 


“ 使 用 Nginx 中 的 X-Accel-Redirect 控 制 头 部 。 


使 用 ngx_http_secure_ link_module 模 块 的 配置 方法 


以 配置 http://xufeng.info/download/file.rar 限 制 有 效 的 URL 时 间 为 访问 时 间 加 5min 为 例 ， 在 生成 URL 时 ， 使 用 的 PHP 代 码 如 下 : 


«?php 

Shost-"xufeng.info"; 

Spassword="L5RFUE37";# 和 Nginx 配 置 中 的 密码 对 应 完全 一 致 

Sexpires-time () +300; 

$uri="/download/file.rar"; 

print "http://".$host.$uri."?"."md5=".str_replace('=', '',strtr(base64 encode (md5 ("$password$expires$uri", TRUE)),'+/', '-_'))."&expires=".$expires;#md5 值 由 密码 、 过 期 时 间 、URI3 部 分 
y» 


生成 的 安全 链接 如 下 所 示 : 


http://xufeng.info/download/file.rar?md5-XAqNkLOidvpEJTyy6iKOPg&expires- 1456733079 


在 Nginx 配 置 文件 中 ， 对 应 的 配置 段 是 : 


location /download/ { 
secure link $arg md5,$arg expires; 
secure link md5 "LSRFJE37$secure link expires$uri"; 
if ($secure link = "") ( 


return 403; 


if ($secure link = "0") { 


} 


return 410; 


使 用 Nginx 中 的 X-Accel-Redirect 控 制 头 部 


使 用 ngx_http_secure _link_module 模 块 ， 可 以 满足 大 部 分 的 安全 下 载 需求 。 但 如 果 希 望 更 精细 化 的 控制 (例如 ， 验 证 用 户 的 登录 状态 等 ) ， 那 么 可 以 使 用 X-Accel-Redirect 控 制 头 部 。 它 的 工作 原理 


Æ: Nginx 把 收 到 的 下 载 请 求 发 送 到 后 端 程序 ， 例 如 PHP 或 者 Java 等 ， 这 些 验证 程序 根据 用 户 发 过 来 的 Cookie 信 息 或 者 其 他 信息 进行 校 验 ， 如 果 成功 ， 则 向 Nginx 返 回 X-Accel-Redirect 头 部 ， 通 知 Nginx 向 


客户 端 输出 静态 文件 ， 否 则 可 以 直 


对 用 户 生成 的 URL 是 : 


接 拒绝 用 户 的 非法 请 求 。 


http://xufeng.info/download.php?file=file.rar 


在 download.php 中 ， 完 成 相关 校 验 工作 并 通知 Nginx: 


«?php 


function check() ( 
# 完 成 Cookie 验 证 等 
return 0; 


} 

Spath = $ GET["file"]; 

header ('Cache-Control: no-cache'); 

if(!check()){ 
header ("X-Accel-Redirect: /download/" . $path); 

} else { 
header ("X-Accel-Redirect: /download/error.txt"); 


} 


7> 


在 Nginx 中 的 配置 文件 是 : 


location /download/ ( 
internal;# 该 目录 不 允许 客户 端 直接 访问 ， 仅 仅 可 以 由 后 端 程序 等 通过 发 送 X-aAccel1-Redirect 头 部 通知 Nginx 返 回 给 用 户 


) 


使 用 CDN 加 速 用 户 访问 


为 了 使 来 自 不 同 区 域 和 运营 商 的 用 户 都 能 快速 访问 到 静态 资源 ， 使 用 CDN 是 一 个 很 好 的 选择 。 使 用 CDN 加 速 时 ， 对 静态 站 点 的 部 署 和 用 户 的 访问 是 透明 的 ， 关 于 使 


全 面 解 析 CDN 技 术 与 实战 ”。 


CDN 的 方法 ， 请 参考 本 书 “ 第 2 章 


最 佳 实践 47: 配置 高 性 能 动态 网 站 


所 谓 动态 网 站 ， 是 指 需 要 根据 用 户 的 请 求 数据 实时 计算 出 页 面 内 容 的 网 站 。 这 类 网 站 包括 论坛 、 在 线 交 易 等 。PHP 和 Java 是 开发 动态 网 站 中 使 用 比较 广泛 的 编程 语言 ， 相 应 的 PHP-FPM 和 Tomcat 是 这 
两 种 编程 语言 的 运行 环境 。 下 面 讲解 这 两 种 运行 环境 的 优化 方法 。 


PHP-FPM 优 化 


1.php.ini 优 化 


在 php.ini 中 ， 需 要 设 定 的 优化 项 


为 max_execution_time， 其 表示 每 个 PHP 程 序 执行 的 最 长 时 间 ， 默 认 值 是 30s。 通 常情 况 下 ， 每 个 PHP 程 序 的 最 长 执行 时 间 可 以 设置 为 5 或 者 以 下 ， 这 样 可 以 防止 执 


行 时 间 过 长 的 PHP 程 序 把 FPM 进 程 数 耗 尽 。 建 议 值 为 5s。 


2.php-fpm.conf 优 化 


在 php-fpm.conf 中 ， 需 要 设 定 的 优化 项 目 如 下 。 


error log: 指定 文件 ， 记 录 PHP 程 序 执行 过 程 中 的 错误 。 


-log level: 日 志 的 记录 级 别 ， 从 高 到 低 依次 为 alert，etror，warning，notice ，debug。 建 议 修改 成 warning。 


-pmi 指定 进程 的 管理 方法 ， 可 选项 是 static、dynamic 和 ondemand。 在 实践 中 ， 使 用 static 的 静态 方法 是 效率 最 高 的 。 使 用 static 方 法 时 ，FPM 主 进程 初始 化 时 一 次 性 生成 指定 数量 (由 pm.max_children 指 令 
控制 ) 的 子 进程 ， 用 于 处 理 Nginx 使 用 FastCGI 协 议 转发 过 来 的 请 求 。 


“ pm.max children: FPM 主 进程 初始 化 时 一 次 性 生成 指定 数量 。 根 据 网 站 的 并 发 量 估算 ， 在 通常 的 经 验 中 ， 初 始 时 设置 为 32 一 般 可 以 满足 大 部 分 网 站 的 并 发 处 理 需求 。 


“ slowlog: 指定 慢 处 理 程序 的 调用 栈 输出 文件 位 置 。slowlog 是 FPM 中 最 重要 的 日 志 之 一 ， 通 过 这 个 日 志 ， 可 以 分 析出 网 站 程序 中 响应 较 慢 的 那些 处 理 脚本 ， 同 时 能 够 定位 到 具体 的 执行 慢 的 函数 。 


: tequest_slowlog timeout: 指定 超过 多 长 的 执行 时 间 后 ， 需 要 把 程序 的 调用 栈 输出 到 slowlog 指 定 的 位 置 。 建 议 值 : ds. 


“ request. terminate, timeout: 指定 单一 请 求 超过 多 长 的 执行 时 间 后 ，FPM 主 进程 把 子 进程 关闭 。 通 常情 况 下 ， 每 个 PHP 程 序 的 最 长 执行 时 间 可 以 设置 为 5s 或 者 以 下 ， 这 样 可 以 防止 执行 时 间 过 长 的 PHP 程 
序 把 FPM 进 程 数 耗 尽 。 建 议 值 : 5s。 


3. 使 有 


file_get_contents 的 警告 


在 运 维 某 游戏 论坛 时 ， 有 游戏 玩家 


反馈 论坛 访问 较 慢 ， 同 时 ， 外 部 探测 也 证 实 出 现 有 时 打开 较 慢 的 情况 。 通 过 查看 FPM 的 slowlog， 可 以 看 到 如 下 提示 : 


Sep 13 19:55:57.230849 pid 15519 (pool default) 


script filename = /app/www/bbs.xcb.sdo.com/viewthread.php 

[0x00007£ff85016ce0] file get contents() /app/www/bbs.xcb.sdo.com/include/global.func.php:1464 
[0x00007£f£f£8501af50] QueryPropertyInfo() /app/www/bbs.xcb.sdo.com/viewthread.php:610 
[0x00007££f£85027060] viewthread procpost() /app/www/bbs.xcb.sdo.com/viewthread.php: 390 


AA t/app/www/bbs.xcb.sdo.com/include/global.func.php: 


1463 $url = 'http://gip.xcb.sdo.com:8089/handlers/QueryPropertyInfo.ashx? appid-l&gameid-88&pt-' .$ptaccount.'&ip-'.$onlineip.'&q-2,3,4'; 
1464 $content = Gfile get contents ($url); 


通过 对 gip.xcb.sdo.com 端 口 8089 的 检测 ， 可 以 判断 是 无 法 正常 连接 。 而 在 使 用 file_get_contents 函 数 获取 URL 的 内 容 时 ， 没 有 超时 机 制 ， 导 致 该 接口 无 法 正常 返回 时 ， 占 满 PHP FPM 解 析 进 程 ， 出 现 
页 面 无 法 加 载 的 情况 。 


通过 修改 代码 后 访问 正常 : 


$url = 'http://gip.xcb.sdo.com:8089/handlers/QueryPropertyInfo.ashx?appid-1l&gameid-88&pt-' .$ptaccount.'&ip-'.$onlineip.'&q-2,3,4'; 
$content = Http Get ($url); 


Http Get ($url) 函数 加 入 了 超时 机 制 curl_ setopt ($ch, CURLOPT TIMEOUT, 2) . 


通过 这 个 事件 ， 可 以 学 习 到 ， 对 于 任何 外 部 接口 ， 在 调用 过 程 中 ， 必 须 加 入 相应 的 超时 机 制 和 超时 后 的 处 理 方法 ， 否 则 ， 可 能 导致 整个 站 点 出 现 无 法 访问 的 情况 。 


Tomcat 优 化 


1. 增 加 Tomcat 可 以 使 用 的 内 存 


在 默认 安装 Tomcat 后 ，Tomcat 可 以 使 用 的 内 存 较 小 。 在 catalina.sh 中 ， 通 过 修改 以 下 内 容 来 增加 Tomcat 可 以 使 用 的 内 存 (注意 加 粗 字 体 部 分 ， 根 据 本 身 服务 器 可 用 内 存 进行 调整 ) : 


if [ -z "$LOGGING MANAGER" ]; then 

JAVA OPTS-"SJAVA OPTS -XX:PermSize-256M -XX:MaxPermSize-1024m -Xmx8192m -Xms8192m -Djava.util.logging.manager-org.apache.juli.ClassLoaderLogManager" 
else 

JAVA OPTS-"SJAVA OPTS -XX:PermSize-256M -XX:MaxPermSize-1024m -Xmx8192m -Xms8192m $LOGGING MANAGER" 
fi 


2.MySQL JDBC 连 接 丢失 的 问题 解决 


在 Tomcat 中 ， 一般 使 用 JDBC 的 连接 池 去 操作 MySQL 数 据 库 。 在 Tomcat 日 志 中 ， 遇 到 过 连接 丢失 的 情况 ， 日 志 输 出 如 下 : 


2013-07-18 08:40:21,671[ERROR, JDBCExceptionReporter] The last packet successfully received from the server was 50,286,413 milliseconds ago. The last packet sent successfully tc 
org.hibernate.exception.JDBCConnectionException: could not execute query 

at org.hibernate.exception.SQLStateConverter.convert (SO0LStateConverter.java:99) 

at org.hibernate.exception.JDBCExceptionHelper.convert (JDBCExceptionHelper.java:66) 

at org.hibernate.loader.Loader.doList (Loader.java:2545) 

at org.hibernate.loader.Loader.listIgnoreQueryCache (Loader.java:2276) 

at org.hibernate.loader.Loader.list (Loader.java:2271) 

at org.hibernate.loader.custom.CustomLoader.list (CustomLoader.java:316) 

at org.hibernate.impl.SessionImpl.listCustomQuery (SessionImpl.java:1842)at org.hibernate.impl.AbstractSessionImpl.list (AbstractSessionImpl.java:165) 

at org.hibernate.impl.SQLQueryImpl.list (SOLQueryImpl.java:157) 


发 生 这 个 问题 的 原因 是 : 连接 池 中 的 某 个 连接 ， 因 为 超时 ， 被 MySQL 关 闭 了 ， 但 程序 依然 试图 通过 这 个 连接 对 MySQL 发 起 请 求 。 


解决 问题 的 方法 是 ， 在 配置 JDBC 时 ， 加 入 以 下 重 试 机 制 : 


jdbc:mysql://mysql-ip:3306/?autoReconnect=true 


最 佳 实践 48: 配置 多 维度 网 站 监控 


在 网 站 上 线 后 ， 下 一 个 重点 工作 是 对 网 站 进行 监控 。 在 实践 中 ， 可 以 通过 以 下 3 种 手段 对 网 站 进行 全 方位 监控 。 


可 用 性 监控 。 


EI 


日 志 监 Z3 


访问 网 站 的 情况 ， 在 日 志 中 都 可 以 得 到 体现 ， 通 过 对 日 志 监 控 ， 可 以 获得 以 下 信息 。 

“ 网 站 响应 是 否 正常 。 该 信息 通过 HTTP 的 响应 码 分 析 得 出 。 

“ 网 站 响应 时 间 是 否 符合 要 求 。 通 过 在 日 志 中 打印 每 个 HTTP 请 求 的 响应 时 间 做 综合 分 析 ， 可 以 看 出 是 否 在 某 个 时 间 段 内 出 现 响应 时 间 过 长 的 情况 。 
-对 网 站 访问 的 用 户 进行 数量 计算 。 


如 下 是 在 线 上 环境 中 记录 的 某 个 手 游 访问 日 志 : 


121.33.49.200 - - [11/8ep/2015:02:33:02 40800] "POST /connect/app/exploration/fairyhistory?cyt=1 HTTP/1.0" 200 13040 "-" "Million/103 (ace; htc ace; 2.3.4) htc wwe/htc ace/ace: 


在 这 个 日 志 中 ， 它 分 别 记录 了 以 下 信息 。 
.来源 IP: 121.33.49.200。 


- 访问 时 间 : 11/Sep/2015: 02: 33: 02+0800。 


“ 访问 请 求 : POST/connect/app/exploration/fairyhistory? cyt=1 HTTP/1.0。 

“ 状态 码 : 200 (RA) 。 

“ 响应 数据 字 节 数 : 13040. 

* User-Agent: Million/103 (ace; htc ace; 2.3.4) htc wwe/htc ace/ace: 2.3.3/GRI40/87995: user/release-keys#end build properties o 
* Session: S-pj9iSi09tbvfuvShrptovqiuo2 s 


- 响应 时 间 : 529054 s. 


以 该 日 志 为 例 ， 使 用 如 下 程序 进行 日 志 监控 : 


package LogParser; 

use strict; 

use warnings; 

use MyDateTime qw ( convert datetime get date); 


require Exporter; 
our QISA 
our GEXPORT OK 


qw ( Exporter ); 
qw ( alert error parse log ); 


sub alert error ( 


#sourceid = 26; deviceid-40444 117.121.X.Y 


my $msg = shift; 
my $happentime = time(); 
my $url = "http://116.211.aa.bb:8020/cgi-bin/receive event new.php?sourceid-26&devicetype-1&deviceid-40444&ip-117.121.X.Y&happentime-S$happentime&errcode--1&errdesc-$C 


fprint $url,"Wn"; 
system("/usr/bin/curl -s -f -m 1 '$url' »/dev/null 2»/dev/null"); 
return 0; 


sub parse log { 


my $logfile 7 shift; 
my $pvcount = 0; 
my $sessioncount = 0; 
my $timenow = time(); 


my $sessionhash; 

my $alertcount = 0; 

my $totalalertcount = 0; 

open( LOG, '«', $logfile ) or return (0,0,0); 
while («LOG») ( 


chomp; 

if ($ =- m/(Nd*N. NN. Nd Nd) Nor Vet NS [ (52) N]J Ns V" (.52) V'Ns art) Ns (Nd) Ns V" (.52) V'NSHN" (52) V'Ns4Nn (.*2) VASE Nd)/ ) i 
my $ip = $81; 
my $status = $4; 
my $resp time = $9; 


#alert if response code is 50X or response time greater than 1 second 


if ( ( $status =~ /^50/ ) || ( $resp time > 1000000 ) ) ( 
my $msg = " error ip " . $ip . " status " . $status . " response time " . $resp time; 
$alertcountt*; 


if ( $alertcount > 100 ) ( 
# 在 统计 的 时 间 内 ， 出 现 100 次 50X 错 误 或 者 1 秒 以 上 的 请 求 ， 且 本 周期 内 报警 总 数 小 于 5， 则 通知 报警 接口 
if ( $totalalertcount < 5 ) ( 
&alert error ($msg) ; 
$alertcount = 0; 
$totalalertcount-*; 


) 

} 

my $session str = ''; 

$session str = $8; 

if ($session str) { 
my Gsessions = split( /;/, $session str ); 
my $session val = ''; 


# 统 计 用 户 Session 信 息 
foreach my $session (8sessions) { 
$session =~ s/Nst//; 
if ( $session =~ /^S=(.*)$/ ) ( 
$session val = $1; 
} 
} 
if ( $session val && !exists( $sessionhash($session val) ) ) { 
$sessionhash($session val) -]1; 
} 
} 
$pvcount-*; 
} 
} 
close (LOG) ; 


$sessioncount = scalar keys %sessionhash; 
return ( $timenow, $pvcount, $sessioncount ) ;# 返 回 当前 时 间 、PV 和 Session 数 


可 用 性 监控 


网 站 可 用 性 监控 ， 有 以 下 两 种 途径 。 


- 使 用 Zabbix 的 Web monitorings 


- 使 用 Nagios 的 check_http 插 件 。 


使 用 Zabbix 可 以 监控 网 站 的 多 个 可 用 性 。 使 用 Zabbix 监 控 网 站 可 用 性 时 ， 需 要 理解 场景 (Senarios) 、 步 骤 (Steps) 、 主 机 (Hosts) 、 模 板 (Templates) 的 关系 。 


其 中 ， 步 又 是 指 某 次 HTTP 探 测 动作 ;场景 是 包含 了 一 个 或 者 多 个 顺序 执行 的 步骤 。 例 如 一 个 登录 登 出 的 场景 ， 包 括 登录 步骤 、 登 出 步骤 。 场 景 可 以 绑 定 到 模板 上 ， 进 而 可 以 一 次 性 地 绑 定 到 多 台 主 机 


E. 
Qi 


在 配置 Zabbix 的 监控 步骤 时 ， 可 以 使 用 Headers 字 段 ， 添 加 类 似 主机 头 〈Host) 的 请 求 头 部 ， 这 样 就 可 以 实现 监控 基于 域名 的 虚拟 主机 的 探测 。 另 外 ， 使 用 Zabbix 可 以 配置 进行 Post 请 求 探测 。 


使 用 Nagios 的 check_http 插 件 可 实现 对 网 站 连通 性 、 响 应 时 间 、 字 符 串 匹配 等 的 监控 。 该 插件 的 文档 地 址 是 : https;//www.monitoring-plugins.org/doc/man/check http.html, 


性 能 上 人 


性 能 监控 ， 是 指 对 网 站 当前 的 连接 和 访问 情况 进行 记录 ， 输 出 到 图 表 。 性 能 监控 能 够 对 当前 的 业务 情况 评估 提供 数据 支持 ， 是 进行 容量 规划 的 必要 数据 依据 。 


以 Nginx 为 例 ， 首 先 配置 status 页 


Ej 


location /nginxstatus { 
stub status on; 
access log off; 
allow 127.0.0.1; 
deny all; 

} 


在 被 监控 端 网 站 服务 器 上 ， 修 改 zabbix_agentd.conf， 增 加 自 定义 的 监控 项 (ltem) ， 监 控 项 的 数据 来 自 脚本 对 http://127.0.0.1/nginxstatus 输 出 的 分 析 。 


本 章 小 结 


本 章 对 高 性 能 网 站 的 配置 技术 进行 了 深入 的 剖析 ， 作 为 技术 铺垫 ， 先 讲解 了 HTTP 协 议 原理 ， 然 后 对 静态 网 站 、 动 态 网 站 分 别 进行 了 优化 配置 ， 最 后 对 网 站 监控 提出 了 解决 方法 。 


网 站 是 一 个 复杂 的 系统 ， 本 章 重点 关注 前 端 解析 和 处 理 的 功能 优化 ， 后 续 几 章 ， 将 对 网 站 周边 系统 ， 如 数据 库 、 缓 存 等 进行 优化 配置 。 


989m ”优化 MySQL 数 据 库 


互联 网 应 用 广泛 使 用 了 各 种 数据 库 作 为 后 端的 持久 化 存储 ， 格 式 化 地 记录 各 种 信息 ， 例 如 注册 用 户 的 信息 、 交 易 记 录 、 财 务 数据 等 。 在 众多 种 类 的 数据 库 中 ，MySQL 是 应 用 最 广泛 的 开源 数据 库 ， 它 几 
乎 部 署 于 各 种 类 型 的 应 用 中 ， 网 站 、 论 坛 、CMS 等 。 


随 着 业务 数据 量 的 增加 和 访问 量 的 增加 ， 对 MySQL 数 据 库 进行 优化 成 为 运 维 人 员 必 须要 考虑 的 工作 内 容 。 


最 佳 实践 49: MySQL 配 置 项 优化 


下 面 是 几 个 需要 首先 关注 的 MySQL 性 能 调 优 的 配置 项 。 如 果 忽 略 了 这 些 配置 ， 那 么 很 快 就 会 遇 到 性 能 问题 。 


: innodb buffer pool size: 在 使 用 InnoDB 引 擎 的 环境 中 ， 在 安装 完成 后 ， 这 个 是 第 一 个 需要 关注 的 配置 项 目 。 缓 冲 池 是 数据 和 索引 被 缓存 的 地 方 ， 这 个 值 的 设置 要 尽 可 能 大 。 典 型 的 配置 值 是 5 一 
6GB (8GB RAM) , 20—25GB (32GB RAM) , 100—120GB (128GB RAM) 。 


“ innodb log file size: redo log 的 大 小 。redo log 被 用 来 保证 写 入 的 速度 和 故障 恢复 。 建 议 设置 为 innodb_log file size—512MB, ， 但 对 于 写 入 频繁 的 数据 库 ， 这 个 值 应 该 调整 成 innodb log file size-4GB. 


- max connections: 如 果 经 常 遇 到 Too many connections 错 误 ， 说 明 max_connections 值 过 小 。 一 种 常见 的 情况 是 ， 应 用 程序 没有 正确 关闭 连接 ， 导 臻 默认 的 151 个 数据 库 连 接 被 很 快 用 光 。 但 如 果 该 值 设置 
过 大 〈1000 或 者 以 上 ) ，MYSQL 收 到 的 并 发 请 求 数 很 大 ， 那 么 它 可 能 会 失去 响应 。 在 这 种 情况 下 ， 应 用 程序 层 的 连接 池 技 术 会 对 这 个 问题 有 所 帮助 。 例 如 PHP MYSQL 的 pconnect 方 法 ，Tomcat 的 JDBC 连 接 池 
等 。 


InnoDB 是 自 MySQL 5.5 版 本 后 的 默认 存储 引擎 ， 它 被 更 频繁 地 使 用 到 。 这 是 需要 对 InnoDB3 引 擎 特别 设置 的 原 


DH 


- innodb file per table: 用 于 控制 对 于 不 同 的 表 是 否 使 用 独立 .ibd 文 件 。 设 置 为 ON 时 ， 它 可 以 在 丢弃 表 或 者 截断 表 时 能 够 回收 存储 空间 。 在 MYSQL 5.6 以 后 ， 这 个 默认 值 就 是 ODN。 这 种 情况 下 ， 就 不 需 
要 再 做 任何 额外 设置 了 。 在 5.6 版 本 前 ， 在 加 载 数据 文件 前 ， 应 该 设置 成 ODN， 因为 这 个 配置 项 仅仅 对 新 创建 的 表 有 效 。 


: innodb flush log at trx commit: 默认 值 是 1， 意 味 着 InnoDB 是 与 ACID 完全 兼容 的 ， 如 果 考 虑 数据 安全 性 是 第 一 需求 ， 那 么 需要 保持 这 个 值 为 1。 在 这 种 情况 下 ， 额 外 的 系统 全 ync 调 用 对 于 低速 硬盘 来 
说 ， 是 一 个 巨大 的 系统 开销 。 设 置 为 2 时 ， 在 数据 安全 性 方面 稍 有 下 降 ， 因 为 此 时 每 隔 1s 才 把 事务 写 入 到 redo log 中 。 在 某 些 数据 完整 性 要 求 不 高 的 情况 下 ， 可 以 设置 为 2 或 者 0。 


- query cache size: 建议 在 一 开始 就 设置 为 0， 完 全 禁用 查询 缓存 。 
“ slow_query_log: 设置 为 1， 启 用 慢 查 询 日 志 。 慢 查询 日 志 是 记录 执行 时 间 超 过 指定 时 间 (long query time). 的 MySQL 查 询 ， 是 分 析 和 优化 MySQL 的 最 重要 文件 。 
- long query time: 默认 值 是 10， 建 议 修改 成 1。 在 大 部 分 应 用 中 ， 超 过 1 秒 的 查询 基本 可 以 判断 为 需要 关注 的 执行 语句 。 


“ slow. query log file: 指定 慢 查询 日 志 的 记录 文件 位 置 。 


最 佳 实践 50: 使 用 主 从 复制 扩展 读 写 能 力 


在 大 规模 的 数据 库 应 用 中 ， 通 过 主 从 复制 可 以 提高 数据 库 系 统 的 对 外 服务 能 力 。 主 从 复制 的 工作 原理 如 下 。 


主 服务 器 数据 库 启用 二 进 制 日 志 ， 主 服务 器 上 的 修改 保存 至 本 地 二 进 制 日 志 。 


Master 接 收 到 来 自 Slave 的 1O 线 程 的 请 求 后 ， 通 过 负责 复制 的 1O 线 程 根据 请 求 信息 读 取 指定 日 志 指定 位 置 之 后 的 日 志 信息 ， 返 回 给 Slave 端 的 IO 线程 。 返 回信 息 中 除了 日 志 所 包含 的 信息 之 外 ， 还 包括 本 
次 返回 的 信息 在 Master 端 的 Binary Log 文 件 的 名 称 以 及 在 Binary Log 中 的 位 置 。 


Slave 的 IO 线程 接收 到 信息 后 ， 将 接收 到 的 日 志 内 容 依 次 写 入 到 Slave 端 的 Relay Log 文 件 (mysql-relay-lin.xxxxxx) 的 最 未 端 ， 并 将 读 取 到 的 Master 端 的 bin-log 的 文件 名 和 位 置 记录 到 master-info 文 
件 中 ， 以 便 在 下 一 次 读 取 的 时 候 能 够 清楚 地 告诉 Master“ 我 需要 从 某 个 bin-log 的 哪个 位 置 开始 往 后 的 日 志 内 容 ， 请 发 给 我 ”。 


Slave 的 SQL 线 程 检测 到 Relay Log 中 新 增加 了 内 容 后 ， 会 马上 解析 该 Log 文 件 中 的 内 容 成 为 在 Master 端 真实 执行 时 候 的 那些 可 执行 的 Query 语 句 ， 并 在 自身 执行 这 些 Query。 这 样 ， 实 际 上 就 是 在 
Master 端 和 Slave 端 执行 了 同样 的 Query， 所 以 两 端的 数据 是 完全 一 样 的 。 


通过 主 从 配置 ， 可 以 把 写 入 放 在 主 库 ， 把 读 取 放 在 从 库 ， 从 而 减 小 了 主 库 的 读 压力 ， 提 高 了 整体 的 访问 效率 。 


主 从 复制 监控 的 方法 


MySQL 主 从 复制 集群 中 的 从 库 ， 只 有 一 个 线程 顺序 执行 Relay Log， 在 主 库 高 并 发 写 入 的 情况 下 ， 会 导致 从 库 跟 不 上 主 库 的 数据 写 入 速度 ， 从 而 导致 从 库 和 主 库 数 据 存在 延 时 ， 出 现 数据 不 一 致 的 情 
况 。 


监控 主 从 复制 的 状态 ， 可 以 通过 检查 从 库 的 输出 来 进行 : 


mysql» SHOW SLAVE STATUSNG 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 
Slave IO Running: Yes # 从 库 I0 线 程 ， 要 确保 是 Running 状 态 

Slave SQL Running: Yes # 从 库 SQL 线 程 ， 要 确 保 是 Running RÆ 

Seconds Behind Master: 8 # 审 步 计算 出 来 的 从 库 和 主 库 的 延 时 ， 一 般 应 该 小 于 300 秒 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 


通过 定期 (Imin) 在 从 库 上 执行 以 上 命令 ， 并 进行 这 3 个 项 目的 检查 ， 可 以 确认 主 从 状态 是 否 正常 。 结 合 Zabbix， 可 以 进行 主 从 复制 失败 的 相关 报警 。 


主 从 复制 失败 的 原因 分 析 


笔者 维护 了 盛大 游戏 数 百 个 数据 库 从 库 实 例 。 在 运 维 工 作 中 ， 总 结 得 出 ， 出 现 主 从 复制 失败 的 情况 主要 有 以 下 几 种 。 
| 主 库 上 直接 复制 MyISAM 数 据 文 件 ， 生 成 新 表 。 


向 主 库 复制 表 test111 的 数据 文件 ， 主 库 执行 更 新 语句 : 


mysql» insert into testlll values ('111'); 
Query OK, 1 row affected (0.00 sec) 


从 库 报错 : 


Error 'Table' test0505.test111 'doesn't exist 'on query' insert into testlll values ('111')'. Default database: 'test0505' 


原因 : 表 的 增加 不 是 通过 执行 sq1， 未 写 入 二 进 制 ， 从 库 上 没有 test111 表 。 


处 理 方法 : 主 库 上 尽量 避免 直接 复制 数据 文件 ， 尽 量 使 用 sql 导 入 。 


1) 主 库 上 直接 删除 MylSAM 表 数据 文件 。 


E: 


mysql» create table test0508 (a int(11)); 
Query OK, 0 rows affected (0.00 sec) 
mysql» show tables; 


十 -一 -一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 十 
| Tables in test0505 | 
4------- iI------------ 十 
| pybcsltscore | 
| test0508 | 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


2 rows in set (0.00 sec) 


从 库 : 


root:test0505» show slave status\G 
Slave IO Running: Yes 
Slave SQL Running: No 
Last Error: Error ‘Table 'test0508' already exists’ on query. Default database: 'test0505'. Query: ‘create table test0508 (a int(11))" 


解决 方法 : 确认 是 主 库 之 前 直接 删除 数据 文件 的 话 ， 可 以 先 将 从 库 对 应 的 数据 表 删 除 ， 主 库 删 除 表 时 使 用 sql， 避 免 使 用 系统 命令 删除 。 


2) server-id 冲 突 。 


从 库 错 误 日 志 : 


[ERROR] The slave I/O thread stops because master and slave have equal MySQL server ids; these ids must be different for replication to work (or the --replicate-same-server-id 


解决 方法 : 从 库 设 置 一 个 和 主 库 不 同 的 server-id。 


3) 主 库 二 进 制 日 志 被 删除 。 


如 果 从 库 IO 进 程 未 能 正常 同步 ， 从 库 正 在 同步 的 主 库 二 进 制 被 删除 。 从 库 报错 : 


130510 29:48:47 [ERROR] Error reading packet from server: Could not open log file (server errno-1236) 
130510 29:48:47 [ERROR] Got fatal error 1236: 'Could not open log file' from master when reading data from binary log 


解决 方法 : 仅 删 除 已 经 被 IO 进程 同 步 到 从 库 的 二 进 制 日 志 。 
4) 从 库 表 损坏 。 


从 库 报错 日 志 : 


[ERROR] Slave: Error 'Incorrect key file for table 'yuanbaolog'; try to repair it' on query. Default database: 'guild'. Query: 'delete from yuanbaolog where  ActiveTime < '2013 


解决 方法 : 修复 数据 表 。 命 令 如 下 : 


repair table yuanbaolog 


5) max_allowed_packet 参 数 过 小 。 


查看 报错 日 志 : 


[ERROR] Got fatal error 1236: 'log event entry exceeded max allowed packet; Increase max allowed packet on master' from master when reading data from binary log. 


Master 上 的 dump 线 程 在 从 binlog 读 取 数 据 时 ， 读 取 的 结果 集 超出 了 max_allowed_packet 限 制 ， 造 成 往 slave 发 送 失败 。 


解决 办 法 : 增加 主 库 max_allowed_packet 值 ， 建 议 主 从 一 致 。 


mysql> set global max allowed packet=16*1024*1024; 


看 启 Slave: 


由 


stop slave; 
start slave; 


6) binlog-do-db 导 致 的 问题 。 


主 库 上 设置 : 


binlog-do-db-testdodb 


主 库 : 


mysql» use testaa; 

Database changed 

mysql» delete from testdodb.dodb where a-'1'; 
Query OK, 1 row affected (0.00 sec) 

mysql» select * from testdodb.dodb where a-'1'; 
Empty set (0.00 sec) 


从 库 : 


1 row in set (0.00 sec) 


现象 : 发 现 记录 还 存在 ， 如 果 出 现 这 种 情况 ， 就 造成 了 主 从 数据 不 一 致 ， 如 果 是 主 库 删除 了 ， 从 库 没有 删除 ， 下 次 主 库 insert 相 同 记录 ， 就 会 出 现 主键 冲突 。 


解决 方法 : 如 果 使 用 了 binlog-do-db， 请 注意 使 用 use db; sql 


同 理 ， 需 要 注意 binlog-ignore-db 可 能 导致 同样 的 问题 。 


7) 字符 集 问题 。 


MySQL 版 本 信息 : 主 库 4.0， 从 库 4.1， 如 图 9-1 所 示 。 


4.1.22 


主 库 查询 正常 : 


root:test0505»select * from pybcsltscore where playername=' 4% vr $i vržE' 


4------------ 4-------------- 二 -一 -一 -一 一 4------ 二 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4------------- 十 
| PlayerName | PT | Level | Work | Score | HistoryScore | ConsumeScore| 
4------------ 4-------------- 4------- 二 -一 一 一 一 4------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4------------- 十 
| AE | pancheng.cs68| 254 | 21 30 60 | 0| 
4------------ 4-------------- 二 -一 -一 -一 一 4------ 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4------------- 十 


1 row in set (0.00 sec) 


root:test0505» select * from pybcsltscore where playername=' 怒 克 斩 交 狂 '; 


4------------ 4-------------- 二 -一 -一 -一 一 4------ 二 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4------------- 十 
| PlayerName | PT | Level | Work | Score | HistoryScore | ConsumeScore| 
二 -一 一 一 -一 一 一 -一 一 一 4-------------- 十 -一 一 一 一 一 一 十 -一 一 一 一 4------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4------------- 十 

| pancheng.cs68| 0 1 0 | 0 | 0 1 01 
4------------ 4-------------- 二 -一 -一 -一 一 4------ 二 -一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4------------- 十 


1 row in set (0.00 sec) 


从 库 : 


mysql»select * from pybcsltscore bak where Playername=' 怒 女 斩 娘 狂 "7 
+ 


--—-—--------— 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一目 一 一 一 一 一 一 一 一 -一 一 一 -一 -一 一 一 -一 -十 -一 -一 -一 -一 -一 -一 -- 
| PlayerName | PT | Level | Work | Score | HistoryScore | ConsumeScore | 
4------------ 4------------ 4------- 4------ 4------- 4-------------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| SX XE ”|pancheng.cs68| 254 | 2| 80 | 110 | ol 
T------------ 十 一 一 一 一 一 -一 -一 -一 一 4------- 十 -一 -一 -一 十 一 -一 一 一 -一 十 一 一 一 一 一 -一 -一 一 一 -一 ~ 二 -一 -一 -一 -一 -一 -一 -一 十 


1 row in set (0.00 sec) 


查询 含 实心 星 号 记录 ， 结 果 却 出 现 空心 星 号 。 


写 入 playname=” 怒 大 斩 太 狂 ” 的 记录 ， 会 提示 主键 冲突 : 


root:test0505» insert into pybcsltscore bak set PlayerName = !' 怒 女 斩 女 狂 '，PT = 'pancheng.cs68'; 
ERROR 1062 (23000): Duplicate entry ' 怒 雄 斩 次 狂 ' for key 1 


解决 方法 : @ 将 数据 文件 放 到 4.0 数 据 库 中 ; @ 备 份 mysqldump>db.sql; @@ 修 改 db.sql， 将 默认 编码 改 为 binary (charset=binary) ; @@ 导 入 到 4.1 数 据 库 ; @ 此 方法 从 能 追踪 到 的 库 来 看 ， 目 前 没 
发 现 问题 。 另 一 种 方法 是 主 从 使 用 相同 的 字符 集 ， 若 使 用 4.0 主 库 ， 则 从 库 最 好 也 使 用 4.0。 


最 佳 实践 51: 使 用 MHA 构 建 高 可 用 MySQL 


在 MySQL 部 署 实践 中 ， 通 常会 使 用 主 从 复制 来 扩展 整体 的 读 写 能 力 ， 如 最 佳 实践 30 所 讲 。 它 的 架构 一 般 如 图 9-2 所 示 。 


Slavel Slave2 Slave3 


图 9-2 一 主 多 从 的 主 从 复制 架构 


在 这 种 架构 中 ， 如 果 Master 出 现 故障 ， 那 将 导致 整个 系统 无 法 对 应 用 程序 提供 写 入 能 力 。 那 如 何 解决 这 个 问题 呢 ? 开源 项 目 MHA (https://code.google.com/p/mysql-master-ha/) 是 解决 这 个 隐患 
的 一 种 有 效 的 方案 。 


MHA 的 架构 如 图 9-3 所 示 。 


Master 


MHA Manager 


Slavel Slave2 Slave3 


图 9-3 ”MHA 架构 


通过 对 比 图 9-2 和 图 9-3 可 以 看 到 ，MHA 没 有 改变 当前 的 主 从 复制 架构 ， 也 没有 大 量 增加 人 额外 的 服务 器 硬件 〈( 仅 增加 一 台 Manager) . 
MHA 的 工作 原理 如 下 。 


MHA Manager 通 过 监控 Master 对 指定 探测 方法 的 响应 (ping_type 指 令 ， 如 SELECT，INSERT) 来 判定 Master 是 否 工作 正常 。 如 果 3 次 连续 探测 失败 ， 则 MHA Manager 通 过 对 比 多 个 从 库 
(Slave1, Slave2, Slave3) 的 复制 延 时 ， 选 择 其 中 一 个 复制 延 时 最 小 的 从 库 ， 提 升 为 主 库 ; 同时 ， 它 会 在 其 他 从 库 上 重 做 日 志 ， 使 得 各 个 从 库 达 到 数据 一 致 ， 并且 重 做 主 从 关系 。 


在 使 用 MHA 进 行 浮动 |P 漂 移 时 ， 需 要 在 脚本 中 加 入 Gratuitous ARP 的 相关 更 新 ， 主 动向 本 网 段 的 其 他 服务 器 和 网 关 更 新 ARP 表 ， 使 其 更 新 ARP 的 对 应 关系 : 浮动 |P 到 从 库 的 MAC 上 。 和 否则 ， 因 为 ARP 
缓存 的 问题 ， 导 致 浮动 IP 漂 移 后 ， 业 务 出 现 不 可 用 的 情况 。 


本 章 小 结 


MySQL 是 应 用 非常 广泛 的 关系 型 数据 库 ， 掌 握 MySQL 的 配置 优化 和 架构 优化 ， 是 每 个 运 维 工程 师 应 该 掌握 的 技术 能 力 。 本 章 重 点 介绍 了 MySQL 的 核心 配置 优化 点 ， 对 MySQL 主 从 配置 中 需要 注意 的 事项 
做 了 详细 说 明 ， 最 后 给 出 了 MySQL 主 从 复制 中 实现 高 可 用 的 方法 。 


第 2 篇 “服务 器 安全 和 监控 


“第 10 章 ”构建 企业 级 虚拟 专用 网 络 
“ 第 11 章 ”实施 Linux 系 统 安全 策略 与 入 侵 检 测 
- 第 12 章 ”实践 Zabbix 自 定义 模板 技术 


“第 13 章 ”服务 器 硬件 监控 


第 10 章 构建 企业 级 虚拟 专用 网 络 


VPN (Virtual Private Network, RERA) 架设 在 公共 共享 的 基础 设施 互联 网 上 ， 在 非 信任 的 网 络 上 建立 私有 的 和 安全 的 连接 ， 把 分 布 在 不 同 地 域 的 办 公 场 所 、 用 户 或 者 商业 伙伴 互联 起 来 。 


VPN 使 用 加 密 技 术 为 通信 提供 安全 保护 ， 以 对 抗 对 通信 内 容 的 窃听 和 主动 攻击 。VPN 在 今天 被 广泛 地 使 用 到 远程 互联 中 。 在 VPN 技 术 出 现 之 前 ， 不 同 办公 场 所 互联 组 建 专用 私有 网 络 时 ， 企 业 往 往 需要 
花费 较 多 的 钱 用 于 租赁 专用 线路 。VPN 的 出 发 点 是 建立 虚拟 的 专用 链 路 ， 在 互联 网 上 进行 传输 、 用 加 密 技术 进行 安全 防护 。 


VPN 的 使 用 场景 ， 可 以 总 结 为 以 下 几 种 。 


RAER: 把 多 个 分 布 在 不 同 地 域 的 服务 器 或 者 网 络 安全 地 和 连接 起 来。 

. 指定 网 络 流量 路 由 : 把 多 个 点 之 间 的 网 络 流量 通过 VPN 隧 道 进行 连接 后 ， 可 以 使 用 动态 路 由 等 优化 内 部 网 络 通信 。 

“ 匿名 访问 : 通过 VPN 通 道 ， 可 以 隐藏 客户 端的 来 源 IP 地 址 ， 在 菜 些 场景 下 可 以 对 用 户 进行 保护 。 

本 章 将 首先 介绍 目前 使 用 比较 多 的 各 种 VPN 构 建 技术 、 方 案 和 原理 ， 然 后 重点 讲解 使 用 DpenVPN 构 建 企业 级 庆 拟 专用 网 络 的 最 佳 方案 ， 深 入 研究 其 中 的 核心 配置 参数 ， 对 OpenVPN 的 排 错 思路 和 方法 进 
行 指导 。 


最 佳 实践 52: 常见 的 VPN 构 建 技术 


目前 在 实践 中 ， 经 常 遇 到 的 VPN 构 建 技术 ， 其 大 致 上 分 以 下 3 类 。 
: PPTP (Point-to-Point Tunneling Protocol， 点 到 点 的 隧道 协议 ) VPN. 
- IPSec (Internet Protocol Security， 互 联网 协议 安全 ) VPN. 


* SSL/TLS (Secure Sockets Layer， 安 全 接口 层 ) VPN. 


PPTP VPN 的 原理 
PPTP 使 用 建立 于 TCP 之 上 的 通道 来 进行 控制 ， 使 用 GRE (Generic Routing Encap-sulation， 通 用 路 由 封装 协议 ) 隧道 技术 来 封装 PPP (Point to Point Protocol， 点 到 点 协议 ) 包 。PPTP 规 范 里 面 没 


有 描述 加 密 和 认证 的 特性 ， 它 依赖 于 底层 的 PPP 协 议 来 实现 数据 安全 的 功能 。 


PPTP 的 第 一 个 隧道 首先 通过 和 对 端 服务 器 的 TCP 1723 端 口 进行 通信 来 建立 。 在 该 TCP 连 接 建 立 后 ， 来 创建 第 二 个 隧道 GRE 来 进行 数据 传输 。 在 RFC 2673 (https://tools.ietf.org/html/rfc2637) rh, 
详细 描述 了 PPTP 协 议 的 控制 和 数据 通信 过 程 。 


在 Linux 环 境 中 ， 可 以 使 用 pptpd 进 行 PPTP VPN 的 架设 。 


IPSec VPN 的 原理 
IPSec 是 一 组 基于 IP 协 议 之 上 的 协议 组 。 它 使 得 两 台 或 者 多 台 主 机 之 间 通 过 认证 和 加 密 每 个 IP 包 使 其 能 够 以 一 个 安全 的 方式 进行 通信 。1Psec 由 以 下 协议 组 成 。 


: ESP (Encapsulated Security Payload， 封 装 的 安全 负荷 ) : 通过 使 用 对 称 加 密 算法 (比较 常用 的 ， 如 Blowfish 和 3DES) 来 加 密 通信 内 容 以 防止 被 第 3 方 窃听 和 干扰 通信 。 
“AH (Authentication Header， 认 证 头 部 ) : 通过 计算 校 验 和 的 方式 来 对 通信 双方 的 数据 进行 认证 ， 防 止 被 第 3 方 得 改 。 

: IPComp (IP Payload Compression Protocol，IP 负 荷 压缩 协议 ) : 通过 压缩 IP 的 负荷 来 减少 数据 通信 量 ， 提 高 性 能 。 
IPSec VPN 有 以 下 的 2 种 工作 模式 。 

“ 传输 模式 : 仅 IP 数 据 负荷 被 加 密 ，IP 和 路 由 信息 不 做 修改 。 这 个 模式 主要 用 在 2 个 服务 器 之 间 进 行 Hostto-Host 加 密 通信 时 使 用 。 


“ 隧道 模式 : 整个 IP 包 都 被 加 密 。 这 个 模式 主要 用 在 不 同 网 络 之 间 构 建 Network-to-Netwo 引 的 VPN 网 络 时 使 用 。 


在 Linux 环 境 中 ， 使 用 范围 比较 大 的 是 StrongSwan。 


SSL/TLS VPN 的 原理 


SSL/TLS VPN 的 工作 过 程 可 以 分 为 以 下 几 步 。 


(1) 认证 过 程 : 在 SSL/TLS 的 握手 过 程 中 ， 客 户 端 和 服务 器 端 分 别 使 用 对 方 的 证 书 来 进行 认证 。 


(2) 加 密 过 程 : 在 SSL/TLS 的 握手 过 程 中 ， 客 户 端 和 服务 器 端 使 用 非 对 称 算法 来 计算 出 对 称 密 钥 进 行 数据 加 密 。 


SSL/TLS VPN 主 要 使 用 以 下 的 虚拟 设备 。 


tun/tap 设 备 : Linux 中 ， 提 供 了 2 种 虚拟 网 络 设备 tun/tap 设 备 。 通 过 对 这 2 种 设备 的 读 写 操作 ， 实 现 内 核 和 用 户 态 程序 的 交互 。 


在 Linux 环 境 中 ，SSL/TLS VPN 的 典型 代表 是 OpenVPN。 


3 种 VPN 构 建 技术 的 对 比 


以 上 3 种 VPN 技 术 ， 各 有 特点 。 总 的 来 说 ， 可 以 对 比如 下 。 
“ PPTP 需 要 建立 2 个 隧道 进行 通信 ， 控 制 和 数据 传输 分 离 ， 其 中 传输 数据 使 用 GRE。 在 同一 个 局 域 网 里 面 的 多 个 内 网 主机 需要 建立 多 条 GRE 通 道 连接 到 同一 台 VPN 服 务 器 时 ， 需 要 在 防火 墙 或 者 NAT 设 


备 上 进行 特殊 设置 ， 以 增加 对 Call ID 的 支持 ， 否 则 会 导致 隧道 建立 失败 。 
` IPSec VPN 是 一 个 成 熟 的 方案 ,但 其 配置 较 复 杂 ， 学 习 成 本 较 高 。IPSec VPN 在 商业 VPN 硬 件 设备 上 实现 的 较 多 。 


“ SSL/TLS VPN 工 作 在 用 户 态 ， 不 需要 对 内 核 做 特殊 的 修改 ， 可 移植 性 较 高 ， 配 置 简单 ， 学 习 成 本 低 。 接 下 来 的 章节 将 重点 介绍 该 开源 VPN 软 件 的 最 佳 配置 。 


最 佳 实践 53: 深入 理解 OpenVPN 的 特性 


使 用 OpenVPN ， 可 以 实现 以 下 功能 。 


“ 对 任何 IP 子 网 或 者 虚拟 以 太 网 通过 一 个 UDP 或 者 TCP 端 口 来 建立 隧道 。 


» 


“ 架构 一 个 可 扩展 的 、 负 载 均 衡 的 VYPN 和 集群 系统 ， 同 时 支持 来 自 上 千 用 户 的 连接 。 


: 使 用 任意 的 加 密 算法 、 密 钥 长 度 或 者 HMAC 摘 要 。 这 些 功能 是 使 用 DpenSSL 的 库 来 实现 的 。 


E 


以 选择 最 简单 的 静态 密码 的 传统 加 密 或 者 基于 证 书 的 公 钥 私 钥 加密 算 法 。 


C 对 数据 流 进行 实时 压缩。 


» 


.支持 对 端 节点 通过 动态 方法 获取 IP 地 址 ， 例 如 DHCP 等 。 


“ 对 于 面向 连接 的 有 状态 防火 墙 ， 不 需要 使 用 特殊 的 设置 。 


» 


. NAT 支 持 。 


"在 Windows 或 者 Mac OS X 上 提供 GUI 的 工具 ， 方 便 配 置 。 


最 佳 实 践 54: 使 用 OpenVPN 创 建 Peer-to-Peer 的 VPN 


在 某 些 运 维 场景 中 ， 会 遇 到 只 需要 把 两 台 处 于 Internet 上 的 服务 器 使 用 VPN 互 联 起 来 的 需求 ， 比 如 远程 的 SNMP 信 息 抓 取 、 远 程 数据 库 备份 等 。 


在 这 种 情况 下 ， 使 用 OpenVPN 来 创建 Peer-to-Peer (点 到 点 ) 的 VPN 的 物理 架构 图 如 图 10-1 所 示 。 


Internet 


Host: x.y.z.28 
图 10-1 ”Peer-to-Peer 的 VPN 物 理 架构 图 
创建 Peer-to-Peer 的 VPN 的 操作 步骤 如 下 。 


步骤 1 在 2 台 需 要 互联 的 服务 器 x.y.z.28 和 a.b.c.239 上 都 需要 执行 的 安装 操作 如 下 : 


Host: a.b.c.239 


# 下 载 epel 的 扩展 仓库 ， 其 中 提供 了 openvpn 的 rpm 包 。 

wget https://dl.fedoraproject.org/pub/epel/epel-release-latest-6.noarch.rpm 

# 安 装 epel 的 rpm 包 。 

rpm -ivh epel-release-latest-6.noarch.rpm 

# 安 装 OpenVPN 前 ， 需 要 安装 OpenVPN 的 依赖 库 (1zo 库 用 于 压缩 ，openssl 库 用 于 支持 加 密 和 证 书 认证 )， 如 下 : 
yum -y install lzo lzo-devel openssl openssl-devel 

F OpenVPN. 

yum -y install openvpn 


步骤 2 在 服务 器 x.y.z.28 上 生成 静态 密码 。 使 用 的 命令 如 下 : 


openvpn --genkey --secret key 


key 的 内 容 如 下 : 


# 
# 2048 bit OpenVPN static key 
* 


mmis BEGIN OpenVPN Static key Vl----- 
8acc8d8feae2fcl3ec66fac4eabc72b8 
10fa75f239e8cd77d0cec0361dd77046 
c6e757c9ed392410b6671899229983cc 
6c85£9a3449a3e6847£b569559bdebd93 
bfecdf00bee63453e2cac80e4429e98d 
3162eae826837836fe37959f496040c4 
44555568028e8cc251e557d3ce39b88e2 
385af0b64bcb7860bc133859bcd9a8da 
63£2729b1f5ebf003cb26005249dcf03 
9£d37cba370a£73be523ad549a3df6b5 
553£441e674£8e05201f051ce66f2f87 
83c3c33fd29cf Tb£b85be3370ee00c07 
a38e7227e78557155fb365c81257088bf 
c0bf845a7c24abc262de77a68567d1b2 
afc96447fcfcle3286f18a22512abfa3 
f68bcd0bfe892fa14848166bclb36bac 


步骤 3 ”使 用 scp 把 该 key 文 件 传送 到 a.b.c.239 服 务 器 上 。 


步骤 4 创建 隧道 。 


在 服务 器 x.y.z.28 上 执行 如 下 命令 : 


openvpn --remote a.b.c.239--dev tun0 --ifconfig 10.6.0.1 10.6.0.2 --secret key --daemon 


在 对 端 服务 器 a.b.c.239 上 执行 如 下 命令 : 


openvpn --remote x.y.z.28 --dev tun0 --ifconfig 10.6.0.2 10.6.0.1 --secret key --daemon 


其 中 的 关键 配置 项 解释 如 下 。 

“ -remote 指定 peer-to-peer 架 构 中 ， 对 端的 公 网 IP。 
“dev ， 指定 使 用 un 设备 。 

- -ifconfig 指定 虚拟 隧道 的 本 端 和 远 端 IP 地 址 。 
secret 指定 包含 静态 密码 的 文件 。 


* --daemon 指 定 使 用 后 台 驻 守 进 程 的 模式 。 


执行 步骤 4 后 ， 两 台 服务 器 之 间 的 虚拟 专用 网 络 如 图 10-2 所 示 。 


tunO tunO 
10.6.0.1/30 10.6.0.2/30 


Host: x.y.z.28 Host: a.b.c.239 


图 10-2 ”Peer-to-Peer 的 VPN 虚 拟 网 络 图 
步骤 5 ”验证 隧道 功能 。 


在 服务 器 Xx.y.z.28 上 执行 如 下 命令 : 


ping 10.6.0.2 -c 2 


在 a.b.c.239 使 用 tcpdump 可 以 看 到 : 


tcpdump -vvv -nnn -i tun0 icmp 

tcpdump: listening on tun0, link-type RAW (Raw IP), capture size 65535 bytes 

10:07:04.031236 IP (tos 0x0, ttl 64, id 0, offset 0, flags [DF], proto ICMP (1), length 84) 
10.6.0.1 > 10.6.0.2: ICMP echo request, id 26451, seq 1, length 64 

10:07:04.031272 IP (tos 0x0, ttl 64, id 42617, offset 0, flags [none], proto ICMP (1), length 84) 

0.6.0.2 > 10.6.0.1: ICMP echo reply, id 26451, seq 1, length 64 

10:07:05.032546 IP (tos 0x0, ttl 64, id 0, offset 0, flags [DF], proto ICMP (1), length 84) 
10.6.0.1 > 10.6.0.2: ICMP echo request, id 26451, seq 2, length 64 

10:07:05.032565 IP (tos 0x0, ttl 64, id 42618, offset 0, flags [none], proto ICMP (1), length 84) 
10.6.0.2 > 10.6.0.1: ICMP echo reply, id 26451, seq 2, length 64 

10:07:06.033775 IP (tos 0x0, ttl 64, id 0, offset 0, flags [DF], proto ICMP (1), length 84) 


Qus 
1) 在 这 种 Peer-to-Peet 模 式 中 ， 使 用 静态 密码 的 方式 时 ，--sectet 指 定 的 key 文 件 是 需要 进行 严格 保密 的 。 
2) 在 这 种 Peer-to-Peet 模 式 中 ， 只 能 有 2 个 端点 进行 参与 。 
3) Peer-to-Peer 是 最 简单 的 部 署 方式 。 初 步 学 习 OpenVPN 时 ， 建 议 先 了 解 该 模式 VPN 的 构建 方式 。 
Linux tun 设 备 精 讲 


tun 和 tap 是 Linux 等 操作 系统 中 提供 的 一 种 虚拟 网 络 设备 。tun 设 备 可 以 理解 为 Point-to-Point 的 设备 ，tap 设 备 可 以 理解 为 Ethernet 设 备 。 需 要 注意 的 是 ，tun/tap 设 备 不 是 从 物理 网 卡 设备 中 读 取 包 ， 
而 是 从 用 户 空间 的 程序 读 取 包 ; 向 该 设备 写 入 时 ， 并 不 实际 从 物理 网 卡 设备 上 发 出 包 ， 而 是 由 内 核 提交 到 应 用 程序 。 


讲 起 来 比较 难以 理解 ， 那 么 以 本 案例 中 的 ping 10.6.0.2 为 例 对 OpenVPN 使 用 关键 技术 tun 设 备 进行 详细 说 明 。 


在 服务 器 x.y.z.28 上 由 用 户 使 用 BASH 输 入 ping 10.6.0.2 后 ，tun 设 备 和 内 核 、OpenVPN 及 物理 网 卡 之 间 的 工作 流程 如 图 10-3 所 示 。 


BASH 
ping 10.6.0.2 | User Space 
1) 
src IP:10.6.0.1 
dst IP:10.6.0.2 


OpenVPN 


4) 
src IP:x.y.z.28 
dst IP:a.b.c.239 


Kernel Space 


TCP/IP Stack 


2) 
src IP:10.6.0.1 
dst IP:10.6.0.2 


3) Phyical 
READ NIC 


图 10-3 xy.z.28 上 的 tun 设 备 工作 流程 图 


下 面 进行 详细 说 明 。 


1) 用 户 使 用 BASH 进 程 输入 ping 10.6.0.2。 此 时 ， 内 核 收 到 的 IP 包 地 址 信息 为 : 源 地 址 10.6.0.1， 目 的 地 址 10.6.0.2。 


2) 内 核 经 过 路 由 判断 ， 把 该 IP 包 写 入 到 tun0 设 备 (tun0 的 IP 地 址 是 10.6.0.1) 。 


Ww 


OpenVPN 进 程 读 取 该 IP 包 。 


4) OpenVPN 对 该 包 进 行 封装 、 加 密 后 ， 向 内 核 写 入 ， 此 时 IP 包 地 址 信息 为 : 源 地 址 x.y.z.28， 目 的 地 址 a.b.c.239。1) 中 的 包 信息 ， 含 |P 头 部 ， 被 封装 到 该 IP 包 内 。 


u 


内 核 经 过 路 由 判断 ， 把 该 包 写 入 到 物理 网 卡 (Physical Nic) 。 


6) 物理 网 卡 经 过 封装 成 帧 (Frame) 通过 物理 链 路 ， 经 过 互联 网 发 送 到 a.b.c.239 上 。 


服务 器 a.b.c.239 收 到 经 过 互联 网 传输 过 来 的 数据 时 ， 它 的 工作 流程 如 图 10-4 所 示 。 


OpenVPN 


User Space 


3) 
src IP:x.y.z.28 
dst IP:a.b.c.239 


Kernel Space 


TCP/IP Stack 


5) 
src IP:10.6.0.1 
dst IP:10.6.0.2 


4) 


, Phyical 
WRITE 
NIC 
物理 链 路 
图 10-4 ab.c.239 的 tun 设 备 工作 流 程 图 
下 面 进行 详细 说 明 。 


1) 物理 网 卡 收 到 帧 (Frame) 。 


2) 物理 网 卡 提交 到 内 核 。 
3) OpenVPN 读 取 该 IP 包 后 ， 经 过 解 封装 、 解 密 ， 获 得 内 容 是 !CMP 的 ping 包 ， 目 的 地 址 是 tun0。 
4) OpenVPN 向 tun0 写 入 经 过 第 3) 步骤 解 封 的 CMP 包 。 


5) 内 核 模 块 处 理 。 


内 核 模 块 处 理 完 成 后 ， 会 发 回 ICMP 请 求 响应 。 回 包 的 流程 和 图 10-3 相 同 。 


最 佳 实践 55: 使 用 OpenVPN 创 建 Remote Access 的 VPN 


上 个 实践 创建 了 两 台 具 有 公 网 IP 的 服务 器 之 间 的 虚拟 专用 网 络 ， 进 行 安全 的 数据 传输 。 本 案例 中 ， 将 创建 Remote Access 模 式 的 VPN。 


Remote Access (远程 访问 ) ， 在 某 些 文档 中 被 称 为 Road Warrior (可 以 翻译 为 移动 办 公 ) ， 是 指 为 经 常 不 在 办 公 室 的 驻 场 人 员 或 者 远程 办 公 的 人 员 提 供 访问 服务 器 资源 或 者 办 公 网 络 资源 的 通道 。 在 
这 些 场景 中 ， 远 程 访问 者 一 般 没有 公 网 IP， 他 们 使 用 内 网 地 址 通过 防火 墙 设备 进行 NAT 转 换 后 连接 互联 网 。 


本 例 中 ， 使 用 的 物理 网 络 结构 图 如 图 10-5 所 示 。 


10.168.103.239 


10.168.103.171 
Internet 


Host:a.b.c.239 


192.168.20.96 


图 10-5 Remote Access 模 式 VPN 物 理 网 络 结构 图 


创建 Remote Access 模 式 的 VPN 的 操作 步骤 如 下 。 


步骤 1 在 服务 器 a.b.c.239 上 生成 CA 证 书 、 服 务 器 证 书 、 客 户 端 证 书 。 


在 OpenVPN 2.0.9 的 源码 包 中 有 相关 的 脚本 可 以 辅助 进行 证 书 的 生成 和 管理 。 


首先 从 http://build.openvpn.net/downloads/releases/openvpn-2.0.9.tar.gz 下 载 该 代码 。 使 用 如 下 命令 : 


wget http://build.openvpn.net/downloads/releases/openvpn-2.0.9.tar.gz 


解压 缩 后 ， 进 入 目录 : 


[root@localhost easy-rsa]# cd openvpn-2.0.9/easy-rsa 
[root@localhost easy-rsa]f ls 


2.0 build-dh build-key build-key-pkcs12 build-req clean-all make-crl README revoke-full vars 
build-ca build-inter build-key-pass build-key-server build-req-pass list-crl openssl.cnf revoke-crt sign-req Windows 
生成 CA 证 书 : 


[rootélocalhost easy-rsa]# . vars # 初 始 化 环境 变量 

NOTE: when you run ./clean-all, I will be doing a rm -rf on /root/openvpn/openvpn-2.0.9/easy-rsa/keys 
[rootélocalhost easy-rsa]f ./clean-all # 删 除 旧 的 文件 

[rootélocalhost easy-rsa]# ./build-ca # 创 建 root CA 


Generating a 1024 bit RSA private key 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text./ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
writing new private key to 'ca.key' 

You are about to be asked to enter information that will be incorporated 

into your certificate request. 

What you are about to enter is what is called a Distinguished Name or a DN. 

There are quite a few fields but you can leave some blank 

For some fields there will be a default value, 

If you enter '.', the field will be left blank. 

Country Name (2 letter code) [KG]: 
State or Province Name (full name) 
Locality Name (eg, city) [BISHKEK]:SH # 填 写 城 市 

Organization Name (eg, company) [OpenVPN-TEST]:XUFENG-INFO # 盾 写 组 织 名 
Organizational Unit Name (eg, section) [] :DEVOPS # 填 写 部 门 名 称 

Common Name (eg, your name or your server's hostname) []:cert.xufeng.info 
Email Address [me8myhost .mydomain]:xufengnju8163.com mpm 


Oza 


Common Name (eg, your name or your server's hostname) []: cert.xufeng.info 这 个 是 最 重要 的 字段 ， 相 当 于 发 证 机 关 root CA 的 组 织 代 码 ， 务 必 保 持 唯 一 。 


生成 OpenVPN 服 务 器 证 书 和 私 钥 : 


[root@localhost easy-rsa]f ./build-key-server vpnserver #extension = server 
Generating a 1024 bit RSA private key 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/ . .http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
writing new private key to 'vpnserver.key' 

You are about to be asked to enter information that will be incorporated 

into your certificate request. 

What you are about to enter is what is called a Distinguished Name or a DN. 
There are quite a few fields but you can leave some blank 

For some fields there will be a default value, 

If you enter '.', the field will be left blank. 

Country Name (2 letter code) [KG]:CN 

State or Province Name (full name) [NA]:SH 

Locality Name (eg, city) [BISHKEK]:SH 

Organization Name (eg, company) [OpenVPN-TEST]:XUFENG-INFO 

Organizational Unit Name (eg, section) [] :VEN 

Common Name (eg, your name or your server's hostname) []:vpnserver.xufeng.info 
Email Address [meG8myhost mydomain]:xufengnju8163.com 

Please enter the following 'extra' attributes 

to be sent with your certificate request 

A challenge password []: 

An optional company name []: 

Using configuration from /root/openvpn/openvpn-2.0.9/easy-rsa/openssl.cnf 
Check that the request matches the signature 

Signature ok 

The Subject's Distinguished Name is as follows 


countryName : PRINTABLE: 'CN' 
stateOrProvinceName : PRINTABL 

localityName : PRINTABLI 

organizationName : PRINTABLE: 'XUFENG-INFO' 
organizationalUnitName:PRINTABLE: 'VPN' 

commonName : PRINTABLE: 'vpnserver.xufeng.info' 


emailAddress :IASSTRING: 'xufengnju0163.com' 

Certificate is to be certified until Dec 8 06:56:36 2025 GMT (3650 days) 
Sign the certificate? [y/n]:y 

1 out of 1 certificate requests certified, commit? [y/nly 

Write out database with 1 new entries 

Data Base Updated 


Oza 


Common Name (eg, your name or your server's hostname) []: vpnserver.xufeng.info 这 个 是 最 重要 的 字段 ， 相 当 于 VPN 服 务 器 的 标识 ， 建 议 使 用 VPN 服 务 器 的 FQDN (Fully Qualified Domain Name， 完 全 合格 


域名 /全 称 域名 ) ， 例 如 vpnsetrverxufenginfo。 


生成 客户 端 需要 的 证 书 和 私 钥 : 


[root(localhost easy-rsa]# ./build-key vpnclient2 

Generating a 1024 bit RSA private key 

http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text./ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
writing new private key to 'vpnclientl.key' z d 
You are about to be asked to enter information that will be incorporated 

into your certificate request. 

What you are about to enter is what is called a Distinguished Name or a DN. 

There are quite a few fields but you can leave some blank 

For some fields there will be a default value, 

If you enter '.', the field will be left blank. 

Country Name (2 letter code) [KG]:CN 

State or Province Name (full name) [NA]:SH 

Locality Name (eg, city) [BISHKEK]:SH 

Organization Name (eg, company) [OpenVPN-TEST]:XUFENG-INFO 

Organizational Unit Name (eg, section) [] :VEN 

Common Name (eg, your name or your server's hostname) []:vpnclient2.xufeng.info 

Email Address [meG8myhost mydomain]:xufengnju8163.com 


Please enter the following 'extra' attributes 

to be sent with your certificate request 

A challenge password []: 

An optional company name []: 

Using configuration from /root/openvpn/openvpn-2.0.9/easy-rsa/openssl.cnf 
Check that the request matches the signature 

Signature ok 

The Subject's Distinguished Name is as follows 


countryName : PRINTABLE: 'CN' 

stateOrProvinceName SH' 

localityName SH' 

organizationName : :'XUFENG-INFO' 
organizationalUnitName: PRINTABLE: 'VPN' 

commonName : PRINTABLE: 'vpnclient2.xufeng.info' 
emailAddress :IASSTRING: 'xufengnju0163.com' 


Certificate is to be certified until Dec 8 06:57:53 2025 GMT (3650 days) 
Sign the certificate? [y/n]:y 

1 out of 1 certificate requests certified, commit? [y/n]y 

Write out database with 1 new entries 

Data Base Updated 


Oza 


Common Name (eg, your name or your server's hostname) []: vpnclient2.xufenginfo 这 个 是 最 重要 的 字段 ， 相 当 于 VPN 客 户 端的 标识 ， 建 议 使 用 VPN 客 户 端的 FQDN (Fully Qualified Domain Name， 完 全 全 称 


域名 ) 或 用 户 的 邮箱 名 字 加 域名 。 


步骤 2 ”在 服务 器 a.b.c.239 上 配置 OpenVPN ， 配 置 文件 是 server.conf。 配 置 文件 的 内 容 如 下 : 


Port 1194 # 使 用 1194 端 口 进行 监听 
proto udp # 使 用 UDP 协议 

dev tun # 使 用 IE 路 由 模式 

Ca /etc/openvpn/ca.crt # 指 定 CR 证 书 位 置 

cert /etc/openvpn/vpnserver.crt # 指 定 服务 器 端 证 书 位 置 

key /etc/openvpn/vpnserver.key # 指 定 服务 器 端 私 钥 位 置 

dh /etc/openvpn/dh1024.pem # 使 用 Diffie-Hellman 算 法 进行 加 密 密 钥 计算 
server 172.16.100.0 255.255.255.0 # 客 户 端 连接 上 VPN 后 从 此 网 段 分 配 隧道 IP 
client-config-dir /etc/openvpn/ccd # 使 用 此 目录 对 各 个 VPN 客 户 端 进行 细 粒 度 控制 

route 192.168.20.0 255.255.255.0 # 配 置 服务 器 增加 一 条 到 客户 端 网 络 的 路 由 

client-to-client # 人 允许 不 同 的 客户 端 进行 互相 访问 ， 使 用 OpenVPN 内 部 路 由 

keepalive 10 120 # 每 10 秒 发 送 保 活 ，120 秒 内 未 收 到 保 活 信息 时 向 OpenVPN 进 程 发 送 STIGUSR1 信 号 

# 在 TLS 控 制 通道 的 通信 协议 上 增加 一 层 HMAC ( (Hash-based Message Authentication Code) 防止 DoS 攻击 
tls-auth /etc/openvpn/ta.key 0 

comp-lzo # 启 用 压缩 

max-clients 100 # 最 大 用 户 数 

user nobody # 执 行 OpenVPN 进 程 的 用 户 

group nobody # 执 行 OpenVPN 进 程 的 组 
persist-key # 收 到 信号 SIGUSR1 时 不 和 


新 读 取 key 文 件 


persist-tun # 收 到 信号 STGUSR1 时 不 关闭 tun 虚 拟 网 口 和 重新 打开 
东 创 建 并 修改 权限 使 nobody 可 以 读 写 /var/ Log/opei SVP? 

status /var/log/openvpn/status.log Fr 日 志 位 置 
log-append /var/log/oj envpn/openvpn: 1 log # 指 定 运行 日 志 位 置 
verb 4 4 设置 自 直 级 别 为 一 释 级 员 ， 估 记录 正常 还 接 信息 和 报错 


我 们 来 看 看 /etc/openvpn/ccd 下 文件 vpnclient2.xufeng.info 的 内 容 : 


ifconfig-push 172.16.100.9 172.16.100.10 # 指 定 客户 端的 IP 为 172.16.100.9 
iroute 10.192.168.20.0 255.255.255.0 # 加 一 条 内 部 路 由 » 
push "route 10.168.103.0 255.255.255.0" # 把 该 路 由 推送 到 客户 端 执行 


Qus 
1) ccd 目 录 下 的 文件 ， 必 须 以 客户 端 证 书 的 Common Name 为 文件 名 。 
2) ccd 目 录 可 以 对 每 个 不 同 的 客户 端 进行 细 粒 度 控制 。 
3) iroute 是 必需 的 。 在 server.conf 中 的 --route 指 令 把 包 从 内 核 路 由 到 OpenVPN， 进 入 OpenVPN 以 后 ，--iroute 指 令 把 包 路 由 到 该 指定 的 客户 端 。 


启动 OpenVPN 服 务 器 进程 。 使 用 如 下 命令 : 


openvpn --daemon --config /etc/openvpn/server.conf 


步骤 3 1£192.168.20.96 E, 安装 OpenVPN GUI， 并 部 署 配置 文件 。 


在 https://openvpn.netVindex.php/download/community-downloads.html 页 面 进行 下 载 。 


在 32 位 Windows 7 系统 上 ， 使 用 如 下 的 连接 进行 下 载 并 安装 : 


https://swupdate.openvpn.org/community/releases/openvpn-install-2.3.9-1601-i686.exe。 


在 安装 过 程 中 ， 可 能 会 出 现 相关 界面 进行 确认 ， 如 图 10-6 所 示 。 


人 OpenVPN 2.3.8-1601 Setup 


Instaling TAP (may need confirmation)... 
Create shortcut: C: ProgramDataMicrosoftiWindows Start Menu\Programs\OpenVP... ^ 
Create folder: C: ProgramData MicrosoftiWindows start MenulProgramsYOpenVPN's. . . 
Create shortcut: C: ProgramDataMicrosoftiWindows Start MenulPrograms YOpenVP.. . 
Create shortcut: C: VProgramDataMicrosoftlWindows Start MenulProgramsYOpenVP. . . 
Create shortcut: C: ProgramData MicrosoftiWindows Start MenulProgramsYOpenVP. . . 
Output folder: C: Wsers\ywdukai\AppData\Local {Temp 
Extract: tap-windows.exe... 10096 
Installing TAP (may need confirmation)... 


Nullsoft Install System v2.46-101 


图 10-6 OpenVPN 安 装 确认 界面 


E] Windows 安生 


RETINERI? 


iie TAP-Windows Provider V9 RASES 
发 布 者 : OpenVPN Technologies, Inc. 


i 


英 绎 信 性 来 自 "DpanVPN Technologies, Inc." 的 


ERHAN. 


È 从 应 仅 从 可 信和 的 发 布 者 安装 驱动 程序 软件 。 


请 勾 选 “始终 信任 来 自 OpenVPN Technologies，Inc. 的 软件 ” 复 选 框 。 


安装 完成 后 ， 在 目录 C:\Program Files\OpenVPN\config 下 面部 署 文 件 ， 如 图 10-7 所 示 。 


名 称 


| ] takey 
| _] vpnclient2.key 


[a] vpnclient.ovpn 
| | dh1024.pem 
Gl ca.crt 


gl vpnclient2.crt 


vpnclient.ovpn 的 内 容 如 下 : 


修改 日 期 


2015/12/11 15:23 
2015/12/11 14:58 
2015/12/16 10:25 
2015/12/11 15:24 
2015/12/11 15:23 
2015/12/11 14:58 


107. 客户 端 文件 部 署 


KEY 文件 
KEY 文件 
OVPN 文件 
PEM 文件 
安全 证 书 
安全 证 书 


client # 指 定 角色 为 客户 端 

dev tun # 和 服务 器 端 一 至 

proto udp # 和 服务 器 端 一 到 

remote a.b.c.239 1194 # 指 定 服务 器 端 TP 和 端口 
resolv-retry infinite # 和 连接 失败 时 重复 尝试 
nobind # 不 指定 本 地 端口 
persist-key # 收 到 信号 SIGUSR1 时 不 重新 读 取 key 文 件 
persist-tun # 收 到 信号 SIGUSR1 时 不 关 


tun 虚 拟 网 口 和 如 
ca ca.crt # 指 定 CR 证书 位 置 
cert vpnclient2.crt # 指 定 客户 端 证 书 位 置 
key vpnclient2.key # 指 定 客户 端 私 钥 位 置 
ns-cert-typ: 


新 打开 


e server # 要 求 服务 器 端的 证 书 的 扩展 属性 为 server 


#7ETTS 控 制 遂 道 的 通信 协议 二 增加 一 层 HMAC ( (Hash-based Message Authentication Code) 防止 DOS 攻 击 


tls-auth ta.key 1 
comp-lzo # 启 用 压缩 
verb 4 # 设 置 日 志 级 别 为 一 般 级 别 ， 


log-append openvpn.log # 指 定 1og 位 置 


会 记录 正常 连接 信息 和 报错 
keepalive 10 120 # 每 10 秒 发 送 保 活 ，120 秒 内 未 收 到 保 活 


信息 时 向 openVPN 进 程 发 送 SIGUSR1 信 号 


经 过 以 上 3 个 步骤 后 ， 客 户 端 192.168.20.96 可 以 使 
这 个 VPN 服 务 器 上 执行 以 下 的 操作 : 


虚拟 隧道 和 VPN 服 务 器 进行 通信 ， 但 此 时 无 法 和 10.168.103.171 通 信 。 


为 了 实现 客户 端 


192.168.20.96 可 以 和 10.168.103.171 通 信 ， 


必须 在 a.b.c.239 


# 启 用 ip_forward 


sed -e e ipv4.ip forward = 0/net.ipv4.ip forward = 1/g' /etc/sysctl.conf 


sysctl 一 
gn iptables 对 tun0 的 转发 支持 

iptables -A FORWARD -i tun0 -j ACCEPT 
p 1 入 NAT 转 发 


iptables -t nat -A POSTROUTING -o ethl -j MASQUERADE #ethl 为 服务 器 内 网 端口 
iptables -t nat -A POSTROUTING -o tun0 -j MASQUERADE #tun0 为 虚拟 隧道 端口 


同时 在 10.168.103.171 服 务 器 上 执行 以 下 的 操作 : 


route add -net 192.168.20.0/24 gw 10.168.103.239 


步骤 4 在 192.168.20.96 上 连接 OpenVPN 服 务 器 并 进行 网 络 测试 。 


连接 后 ， 在 192.168.20.96 上 可 以 看 到 它 获得 的 隧道 |P 地 址 ， 如 图 10-8 所 示 。 


以 太 网 适配器 本 地 连接 3: 


y e DNS 后 经 
IPv6 s M. fe80::491a:8cf f :bb87:1cdbz24 


IPv4 + 172.16.100.9 4——— 


BALL ae 255.255.255.252 


默认 网 天 


图 10-8 ”客户 端 获得 的 隧道 IP 地 址 


由 此 可 见 ， 它 获得 的 隧道 |P 地 址 和 服务 器 端 配置 文件 /etc/openvpn/ccd/vpnclient2.xufeng.info 中 使 用 的 ifconfig-push 指 令 配置 完全 一 致 。 


它 获 得 的 路 由 如 图 10-9 所 示 。 


2: NMindousNSystem32»route print ifind "10.168.103" 


10.168.103.08 255.255.255.0 172.16.108.10 172 


.16.1080.9 


10-9 客户 端 获得 的 路 由 


在 Remote Access 模 式 下 ， 从 VPN 客 户 端 192.168.20.96 使 用 ICMP ping 服 务 器 Host: a.b.c.239 所 在 局 域 网 中 的 一 台 服 务 器 10.168.103.171 的 虚拟 网 络 数据 流 图 如 图 10-10 所 示 。 


tun0 
Teredo Tunneling Pseudo-Interface 172.16.100.1/30 
172.16.100.9/30 


172.16.100.10/30 172.16.100.2/30 


192.168.20.96 OpenVPN 虚 拟 路 由 器 Host: a.b.c.239 


src:172.16.100.9 $rc:10.168.103.239 


ping 10.168.103.171 


dst:10.168.103.171 dst:10.168.103.171 


10-10 Remote Access 模 式 下 虚拟 网 络 数据 流 


情况 。 此 时 在 服务 器 10.168.103.171 上 ， 看 到 的 ICMP 的 来 源 IP 地 址 是 VPN 服 务 器 (Host: a.b.c.239) 的 内 网 IP 地 址 10.168.103.239。 


在 服务 器 10.168.103.171 使 用 tcpdump 抓 取 ICMP 网 络 通信 的 结果 如 下 : 


10.168.103.239 


10.168.103.171 


图 中 ，OpenVPN 起 到 虚拟 路 由 器 的 作用 ， 使 用 net30 的 模式 ， 建 立 起 远程 访问 者 和 VPN 服 务 器 之 间 的 虚拟 专用 网 络 。 方 框 中 的 IP 包 ， 标 示 出 了 在 VPN 客 户 端 发 出 的 包 到 达 VPN 服 务 器 经 过 NAT 转 换 的 


# tcpdump -vvv -nnn -i eml -c 3 icmp 
tcpdump: listening on eml, link-type EN10MB (Ethernet), capture size 65535 bytes 
10:38:35.015495 IP (tos 0x0, ttl 127, id 654, offset 0, flags [none], proto ICMP (1), length 60) 
10.168.103.239 » 10.168.103.171: ICMP echo request, id l, seq 9923, length 40 MERECE MEE Hop IB A A LANE 
10:38:35.016139 IP (tos 0x0, ttl 64, id 64964, offset 0, flags [none], proto ICMP (1), length 60) 
10.168.103.171 » 10.168.103.239: ICMP echo reply, id 1, seq 9923, length 40 
10:38:36.017624 IP (tos 0x0, ttl 127, id 655, offset 0, flags [none], proto ICMP (1), lengt] 
10.168.103.239 » 10.168.103.171: ICMP echo request, id l, seq 9924, length 40 SUME CE MERE RENI A FUE 
3 packets captured 
4 packets received by filter 
0 packets dropped by kernel 


最 佳 实践 56: 使 用 OpenVPN 创 建 Site-to-Site 的 VPN 


Site-to-Site (站 点 到 站 点 ) VPN， 用 于 连接 两 个 或 者 多 个 地 域 上 不 同 的 局 域 网 HAN， 每 个 LAN 有 一 台 OpenVPN 服 务 器 作为 接 入 点 ， 组 成 虚拟 专用 网 络 ， 
f&. 


一 个 典型 的 Site-to-Site 的 VPN 物 理 架 构 如 图 10-11 所 示 。 


使 得 不 同 LAN 里 面 的 主机 和 服务 器 能 够 互相 通 


LAN 1 


10.128.119.0/24 


LAN 2 
10.168.103.0/24 


Internet 10.168.103.239 


10.168.103.171 


Host:|x.y.z.28 Host: a.b.c.239 


10.128.119.30 


图 10-11 典型 的 Site-to-Site VPN 物 理 架 构图 


在 部 署 Site-to-Site VPN 时 ， 需 要 注意 以 下 几 点 。 


“ 在 所 有 VPN 的 接 入 点 ， 把 系统 路 由 转发 打开 。 


C 在 所 有 VPN 的 接 入 点 ， 在 tun0 端 口 和 内 网 端口 全 部 配置 成 NAT 模 式 ， 这 样 可 以 极 大 地 简化 VPN 路 由 设置 。 


C 在 所 有 VPN 的 接 入 点 ， 把 iptables 转 发 设置 为 允许 。 


: 每 个 LAN 的 主机 ， 通 过 设置 静态 路 由 或 者 默认 路 由 ， 把 到 对 端 LAN 的 访问 下 一 跳 指向 到 本 LAN 的 接 入 点 服务 器 的 内 网 IP。 


关于 以 上 几 点 ， 在 此 不 再 歼 述 ， 可 以 参考 前 一 个 最 佳 实践 的 方法 。 


在 此 ， 把 本 架构 中 的 VPN 客 户 端 x.y.z.28 配 置 文件 贴 出 来 ， 以 供 大 家 参考 。 


[root@localhost openvpn]# cat vpnclient.conf 


client 

dev tun 

proto udp 

remote a.b.c.239 1194 
resolv-retry infinite 
nobind 

persist-key 
persist-tun 

ca /etc/openvpn/ca.crt 


cert /etc/openvpn/vpnclientl.crt 
key /etc/openvpn/vpnclientl.key 


ns-cert-type server 

tls-auth /etc/openvpn/ta.key 1 
comp-lzo 

verb 4 

route-delay 2 

keepalive 10 120 


log-append /var/log/openvpn/openvpn.log 


最 佳 实践 57: 回收 客户 端的 证 书 


如 果 分 发 给 客户 端的 证 书 不 愤 被 窃取 了 ， 那 么 必须 要 确认 它 不 能 继续 通过 OpenVPN 来 接 入 虚拟 专用 网 络 。 在 此 情况 下 ， 以 收回 vpnclient2 的 证 书 为 例 ， 需 要 使 用 如 下 命令 : 


. ./vars 
./revoke-full vpnclient2 


这 样 会 在 keys 目 录 下 产生 一 个 文件 crl.pem， 把 它 拷贝 到 /etc/openvpn 目 录 下 ， 然 后 在 server.conf 中 加 入 下 面 一 行 : 


crl-verify crl .pem 


这 样 ， 每 次 建立 VPN 连 接 前 ，OpenVPN 服 务 器 会 查看 crl.pem 来 确定 客户 端的 证 书 是 否 在 收回 的 列表 里 面 。 如 果 匹配 ， 则 禁止 客户 端 进行 连接 。 


最 佳 实践 58: 使 用 OpenVPN 提 供 的 各 种 script 功 能 


在 以 上 的 各 个 最 佳 实践 中 ， 分 别 使 


了 静态 密码 或 者 证 书 的 方式 来 提供 客户 端的 认证 。 那 么 ， 是 不 是 还 有 其 他 方法 呢 ? 


可 以 体现 OpenVPN 灵 活性 特点 的 一 个 重要 方面 是 它 提供 了 从 客户 端 认 证 前 、 认 证 中 、 认 证 后 、 隧 道 建立 后 等 各 个 阶段 的 script 处 理 功 能 。 读 者 可 以 用 这 些 script 来 实现 各 种 控制 功能 。 


OpenVPN 按 照 执行 的 顺序 ， 提 供 了 以 下 的 一 系列 脚本 功能 : 

: —up: 在 TCP/UDP 在 socket 上 执行 了 bind、TUN/TAP 后 执行 。 

+ --tls-verify: 远程 开始 进行 tls 认 证 时 执行 。 

“ --ipchange: 在 客户 端 ，OpenVPN 连 接 认证 后 执行 。 

“ --client-connect: 在 服务 器 端 ， 客 户 端 认 证 后 立即 执行 。 

-route-up: 连接 认证 后 执行 。 

-route-pre-down; 路 由 删除 前 执行 。 

< -client-disconnect: 在 服务 器 上 ， 客 户 端 断 开 连 接 时 执行 。 

“ -down: TCP/UDP 和 TUN/TAP 关 闭 后 执行 。 

< -learn-address: 在 服务 器 端 ， 任 何 路 由 或 者 IP 地 址 被 MAC 地 址 学 习 到 时 执行 。 


- —auth-user-pass-verify: 在 服务 器 端 ， 新 的 客户 端 连接 开始 建立 的 时 候 。 


回归 到 前 面 提 到 的 对 客户 端 进行 其 他 方式 认证 的 问题 ， 可 以 使 用 --auth-user-pass-verify 指 令 。 


在 server.conf 中 ， 增 加 配置 项 如 下 : 


auth-user-pass-verify /etc/openvpn/myauth.pl via-file 


myauth.pl 脚 本 输出 0 (成 功 ) 或 者 1 (失败 ) 以 通知 DpenVPN 是 否认 证 通过 。 


通过 如 下 脚本 ， 使 用 Windows Active Directory 来 进行 用 户 的 控制 ， 只 有 合法 的 Active Directory 账 户 才 可 以 连接 到 虚拟 专 


网 络 。 脚 本 内 容 如 下 : 


#!/usr/bin/perl 

use strict; 

use warnings; 

use utf8; 

use Net::LDAP; 

my Stmpfile = $ARGV [0] ;#0penVPN 进 程 会 把 客户 端 提 交 过 来 的 用 户 名 和 密码 记录 在 临时 文件 中 
my $line =1; 

my $username; 

my password; 

my $not verified = 1; 


open( TMP, '«', $tmpfile ) or exit(1); # 打 开 临 时 文件 
while («TMP») ( 
chomp; 
if ( $line eq 1 ) ( 
$username = $ ; # 获 取 用 户 名 
} 
else { 
$password = $ ; # 获 取 密 码 
) 


$line-*; 

} 

close (TMP) ; 

if ( !( $username && $password ) ) { 
exit (1); 


} 


# verify via active directory 
my $ldap = Net::LDAP-»new('shrd.woyo.com', timeout =>3) or exit(1); 
my $mesg = 
$ldap->bind( $username . "\@" . 'shrd.woyo.com', password => $password ); 
$mesg->code && exit(1); # 使 用 用 户 名 和 密码 到 AD 中 进行 认证 
my $searchbase = 'dc=shrd, dc=woyo, dc=com' ; 
#VPN 用 户 必 须 属于 vpn 组 
my $filter = "memberOf-CN-vpn, OU-Accounts, DC=shrd, DC=woyo DC=com"; 
my $results = $ldap->search( base => $searchbase, filter => $filter ); 
foreach my $entry ( $results->entries ) { 
if(S$entry-»get value('mailNickname') && ($entry->get value('mailNickname') eq $username )) { 
$not verified - 0; T 
last; 
} 
} 
$1dap-»unbind; 
exit ($not verified); 


最 佳 实践 59: OpenVPN 的 排 错 步骤 


在 实践 中 ， 运 维 工 程 师 们 经 常 需要 搭建 一 套 OpenVPN 的 系统 或 者 运 维 一 套 已 经 在 线 上 生产 环境 中 使 用 的 OpenVPN 系 统 。 在 配置 或 者 维护 虚拟 专 


样 不 同 的 问题 。 
在 此 ， 我 们 总 结 了 对 于 OpenVPN 系 统 最 佳 的 排 错 步骤 。 在 遇 到 问题 时 ， 可 以 按照 下 面 的 步骤 进行 排查 。 


步骤 1 认真 查看 与 分 析 服 务 器 端 和 客户 端的 OpenVPN 日 志 。 


在 服务 器 上 ， 使 用 如 下 指令 配置 OpenVPN 的 日 志 : 


log-append /var/log/openvpn/openvpn.log 
verb 4 


网 络 的 过 程 中 ， 根 据 不 同 的 需求 ， 可 能 会 遇 到 各 种 各 


那么 在 出 现 异常 时 ， 首 先 需 要 分 析 这 个 文件 ， 该 文件 分 以 下 几 个 部 分 。 


“ OpenVPN 实 际 运行 时 读 取 的 配置 文件 位 置 和 配置 项 。 以 如 下 格式 开始 : 


Fri Dec 18 13:25:44 2015 us=656293 Current Parameter Settings: 
Fri Dec 18 13:25:44 2015 us=656383 config = '/etc/openvpn/server.conf' 


:OpenVPN 的 版 本 和 OpenSSL 版 本 : 


Fri Dec 18 13:25:44 2015 us-660554 
Fri Dec 18 13:25:44 2015 u: 
Fri Dec 18 13:25:44 2015 us-663615 


OpenVPN 2.3.8 x86 64-redhat-linux-gnu [SSL (OpenSSL)] [LZO] 
library versions: OpenSSL 1.0.1e-fips 11 Feb 2013, LZO 2.03 
Diffie-Hellman initialized with 1024 bit key 


[EPOLL] [PKCS11] [MH] [IPv6] built on Aug 4 2015 


“OpenVPN 本 地 添加 的 路 由 信息 : 


Fri Dec 
Fri Dec 
Fri Dec 
Fri Dec 
Fri Dec 


18 
18 
18 
18 
18 


13:25:44 2015 
13:25:44 2015 
13:25:44 2015 
13:25:44 2015 
13:25:44 2015 


us-665243 
us-668536 


/sbin/ip 
/sbin/ip 
/sbin/ip 
/sbin/ip 
/sbin/ip 


us=672122 


link set dev tun0 up mtu 1500 
addr add dev tun0 local 172.16.100.1 peer 172.16.100.2 
route add 10.128.119.0/24 via 172.16. 
route add 192.168.20.0/24 via 172.16. 
route add 172.16.100.0/24 via 172.16. 


100.2 
100.2 
100.2 
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观察 需要 增加 的 路 由 是 否 完整 ， 同 时 注意 配置 项 的 输出 是 否 和 配置 文件 中 一 致 。 


如 果 不 一 致 ， 则 可 能 是 修改 了 配置 文件 而 没有 重启 OpenVPN 进 程 。 


“ 客户 端 连接 时 的 信息 : 


Fri Dec 18 13:25:54 2015 us=348333 x.y.z.28:58937 Re-using SSL/TLS context 

# 压 缩 启用 成 功 

Fri Dec 18 13:25:54 2015 us=348369 x.y.z.28:58937 LZO compression initialized 

Fri Dec 18 13:25:54 2015 us-348505 x.y.z.28:58937 Control Channel MTU parms [ L:1542 D:166 EF:66 EB:0 ET:0 EL:3 ] 

Fri Dec 18 13:25:54 2015 us-348537 x.y.z.28:58937 Data Channel MTU parms [ L:1542 D:1450 EF:42 EB:143 ET:0 EL:3 AF:3/1 ] 

# 和 客户 端 建立 时 ， 本 地 的 配置 项 

Fri Dec 18 13:25:54 2015 us=348679 x.y.z.28:58937 Local Options String: 'V4,dev-type tun,link-mtu 1542,tun-mtu 1500,proto UDPv4,comp-lzo,keydir 0,cipher BF-CBC,auth SHA1,keysiz 
# 和 客户 端 建立 十 ， 对 客户 端 配置 项 的 要 求 

Fri Dec 18 13:25:54 2015 us-348706 x.y.z.28:58937 Expected Remote Options String: 'V4,dev-type tun,link-mtu 1542,tun-mtu 1500,proto UDPv4,comp-lzo,keydir 1,cipher BF-CBC,auth £ 
Fri Dec 18 13:25:54 2015 us-348743 x.y.z.28:58937 Local Options hash (VER-V4): '14168603' 

Fri Dec 18 13: X.y.z.28:58937 Expected Remote Options hash (VER-V4): '504e774e' 

Fri Dec 18 13:25:54 2015 us-348824 x.y.z.28:58937 TLS: Initial packet from [AF INET]x.y.z.28:58937, sid-5e66e4eb b8382cc8 

#CR 证 书信 息 x 

Fri Dec 18 13:25:54 2015 us-652935 x.y.z.28:58937 VERIFY OK: depth-1, C-CN, ST-SH, L-SH, O-XUFENG-INFO, OU-DEVOPS, CN-cert.xufeng.info, emailAddress-xufengnju8163.com 

# 客 户 端 证 书 ， 注 意 VERIFY 后 面 的 ， 必 须 是 OK 

Fri Dec 18 13:25:54 2015 us=653140 x.y.z.28:58937 VERIFY OK: depth=0, C=CN, ST-SH, O-XUFENG-INFO, OU=VPN, CN-vpnclientl.xufeng.info, emailAddress=xufengnju@163.com 

Fri Dec 18 13:25:54 2015 us-704318 x.y.z.28:58937 Data Channel Encrypt: Cipher 'BF-CBC' initialized with 128 bit key # 加 密 算法 

Fri Dec 18 13:25:54 2015 us-704352 x.y.z.28:58937 Data Channel Encrypt: Using 160 bit message hash 'SHA1' for HMAC authentication #HMAC 算 法 

Fri Dec 18 13:25:54 2015 us-704436 x.y.z.28:58937 Data Channel Decrypt: Cipher 'BF-CBC' initialized with 128 bit key 

Fri Dec 18 13:25:54 2015 X.y.z.28:58937 Data Channel Decrypt: Using 160 bit message hash 'SHAl' for HMAC authentication 

Fri Dec 18 13:25:54 2015 us-729243 x.y.z.28:58937 Control Channel: TLSv1.2, cipher TLSvl1/SSLv3 DHE-RSA-AES256-GCM-SHA384, 1024 bit RSA 

Fri Dec 18 13:25:54 2015 us-729287 x.y.z.28:58937 [vpnclientl.xufeng.info] Peer Connection Initiated with [AF INET]x.y.z.28:58937 

Fri Dec 18 13:25:54 2015 us-729344 vpnclientl.xufeng.info/x.y.z.28:58937 OPTIONS IMPORT: reading client specific options from: /etc/openvpn/ccd/vpnclientl.xufeng.info MHiAJltas4 
Fri Dec 18 13:25:54 2015 vpnclientl.xufeng.info/x.y.z.28:58937 MULTI: Learn: 172.16.100.5 -» vpnclientl.xufeng.info/x.y.z.28:58937 

Fri Dec 18 13:25:54 2015 vpnclientl.xufeng.info/x.y.z.28:58937 MULTI: primary virtual IP for vpnclientl.xufeng.info/x.y.z.28:58937: 172.16.100.5 

Fri Dec 18 13:25:54 2015 us-729628 vpnclientl.xufeng.info/x.y.z.28:58937 MULTI: internal route 10.128.119.0/24 -» vpnclientl.xufeng.info/x.y.z.28:58937 

Fri Dec 18 13:25:54 2015 us-729648 vpnclientl.xufeng.info/x.y.z.28:58937 MULTI: Learn: 10.128.119.0/24 -» vpnclientl.xufeng.info/x.y.z.28:58937 

Fri Dec 18 13:25:56 2015 89781 vpnclientl.xufeng.info/x.y.z.28:58937 PUSH: Received control message: 'PUSH REQUEST' 

Fri Dec 18 13:25:56 2015 89819 vpnclientl.xufeng.info/x.y.z.28:58937 send push reply(): safe cap-940 

Fri Dec 18 13:25:56 2015 us-789862 vpnclientl.xufeng.info/x.y.z.28:58937 SENT CONTROL [vpnclientl.xufeng.info]: 'PUSH REPLY,route 172.16.100.0 255.255.255.0,topology net30,pinc 


步骤 2 对比 分析 服务 器 端 和 客户 端的 配置 文件 ， 确 保 相关 配置 项 一 致 。 


这 里 提供 一 个 简单 有 效 的 方法 。 首 先 把 服务 器 配置 文件 和 客户 端 配置 文件 都 下 载 下 来 ， 对 内 容 使 


Linux 中 的 diff 或 者 Windows 中 的 Beyond Compare 进 行 对 比 。 使 用 diff 命 令 时 操作 如 下 : 


sort server.conf > server.conf.1 
sort vpnclient.conf »vpnclient.conf.1 
diff server.conf.1l vpnclient.conf.1l 
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这 样 对 比 下 来 ， 以 下 项 目 必 须 保 证 一 致 : cipher、ca、dev、proto、comp-lzo。 


另外 ， 在 服务 器 端 ts-authVetc/openvpn/takey 0 和 客户 端 tls-auth/etc/openvpn/takey 1 上 匹配 。 


步骤 3 ”检查 服务 器 是 否 打开 转发 并 被 防火 墙 允 许 。 


使 


如 下 命令 ， 确 认 值 是 1: 


# sysctl net.ipv4.ip forward 
net.ipv4.ip forward = 1 


使 


如 下 命令 ， 确 认 chain FORWARD 为 ACCEPT 或 者 显示 指定 了 tun0 的 FORWARD 为 ACCEPT: 


iptables -L -n 


步骤 4 ”检查 服务 器 上 NAT 的 设置 。 


如 下 是 一 个 正确 使 


iptables-save 之 后 的 NAT 配 置 内 容 : 


*nat 

:PREROUTING ACCEPT [176:15277] 
OSTROUTING ACCEPT [44:2480] 
:OUTPUT ACCEPT [36:2160] 


-A POSTROUTING -o ethl -j MASQUERADE #VPN 服 务 器 内 网 口 启用 NAT 
-A POSTROUTING -o tun0 -j MASQUERADE #VPN 服 务 器 隧道 口 启用 NAT 


COMMIT 


步骤 5 检查 主机 的 路 由 表 。 


在 所 有 参与 网 络 通信 的 服务 器 ， 按 照 网 络 数据 流 的 路 径 ， 依 次 使 


步骤 6 使 


tcpdump 进 行 分 析 。 


如 以 上 步骤 依然 无 法 排除 问题 ， 可 以 使 


route 或 者 traceroute 命 令 检查 下 一 跳 是 否 正 确 。 如 指向 不 正确 ， 则 修正 。 


tcpdump 进 行 抓 包 。 关 于 使 用 tkcpdump 的 技巧 ， 请 参考 本 书 “第 14 章 使 用 cpdump 与 Wireshark 解 决 疑难 问题 ”一 章 。 


本 章 小 结 


虚拟 专用 网 络 通过 使 用 软件 来 互联 不 同 地 域 分 布 的 分 支 机 构 、 人 员 ， 为 业务 提供 安全 的 加 密 通 道 ， 有 效 地 扩展 了 局 域 网 的 范围 ; 同时 借助 开源 方案 ， 能 够 提高 TCO (Total Cost of Ownership， 总 拥有 成 
A). 


本 章 首 先 介 绍 了 常见 的 VPN 构 建 技术 和 原理 ， 并 简要 对 比分 析 了 它们 的 特点 。 然 后 实践 了 OpenVPN 构 建 3 种 不 同 网 络 结构 的 虚拟 专用 网 络 ， 指 出 其 中 核心 配置 内 容 和 证 书 管理 等 。 通 过 对 OpenVPN 排 错 


步骤 的 梳理 ， 和 希望 读者 能 够 建立 一 套 高 效 的 问题 排查 思路 ， 在 遇 到 任何 OpenVPN 相 关 的 故障 时 都 能 从 容 不 迫 地 去 分 析 、 处 理 、: 


OpenVPN 作 为 一 款 具 有 超过 10 年 历史 的 开源 SSLVPN， 具 有 良好 的 稳定 性 和 性 能 ， 同 时 在 国内 外 也 有 良好 的 技术 生态 圈 ， 应 用 非常 广泛 ， 值 得 每 个 运 维 工程 师 去 研究 、 学 习 、 使 用 。 


第 11 章 ”实施 Linux 系 统 安全 策略 与 入 侵 检测 

Linux 系 统 因 其 稳定 性 、 高 性 能 在 企业 级 应 用 环境 中 被 大 量 使 用 。 这 样 就 容易 给 大 家 造成 一 种 错觉 : 既然 Linux 系 统 这 么 广泛 地 被 应 用 ,那么 这 种 系统 是 绝对 安全 的 ， 是 “铜墙铁壁 ”。 但 事实 是 ， 如 果 不 
遵循 Linux 的 系统 安全 设 定 ， 它 仍然 可 能 成 为 入 侵 者 的 目标 。 运 维 工 程 师 需要 特别 关注 Linux 系 统 的 安全 ， 通 过 技术 和 管理 的 手段 ， 保 障 其 不 被 入 侵 ， 提 高 业务 连续 性 。 

本 章 通过 系统 分 层 的 思路 ， 重 点 从 以 下 方面 讲解 Linux 系 统 安全 的 最 佳 实践 。 

“ 物理 层 安 全 措施 。 

“ 网 络 层 安全 措施 。 

“应 用 层 安 全 措施 。 

- 入 侵 检测 系统 配置 。 

“ Linux 备 份 与 安全 。 


在 各 个 层面 的 讲解 过 程 中 ， 会 对 近期 的 重要 安全 事件 进行 分 析 ， 增 强 实践 性 和 针对 性 。 


最 佳 实践 60: 物理 层 安全 措施 


当 谈 论 安全 的 时 候 ， 大 家 可 能 会 想起 锁 、 警 报 器 和 身 着 统一 制服 的 保安 。 确 实 ， 虽 然 这 些 不 是 系统 安全 的 全 部 内 容 ， 但 这 些 内 容 是 保障 系统 安全 时 可 以 考虑 的 起 点 。 


物理 安全 是 系统 安全 计划 的 一 个 关键 内 容 ， 对 于 其 他 的 所 有 安全 方面 ， 物 理 安全 是 一 个 重要 的 基础 。 如 果 没 有 足够 的 物理 安全 保障 ， 那 么 以 下 的 所 有 安全 措施 都 将 变 得 很 困难 或 者 无 法 完成 。 
“ 信息 安全 : 保障 数据 完整 性 和 可 用 性 。 

“ 软件 安全 : 系统 安装 的 软件 是 未 被 恶意 修改 的 。 

“用户 访 问安 全 : 用 户 对 应 用 和 资源 的 访问 是 经 过 授权 和 认证 的 。 


“ 网 络 安全 : 服务 器 所 在 的 网 络 环境 是 未 被 恶意 操作 过 的 。 


物理 安全 的 保障 措施 ， 主 要 应 对 以 下 威胁 。 
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. 被 著 意 破坏 。 

. 自然 灾害 的 威胁 。 

.人 为 错误 导致 的 灾难 。 

. 意外 事件 导致 的 损坏 。 

针对 以 上 威胁 ， 除 了 在 选择 机 房 时 进行 详细 评估 之 外 ， 还 可 以 从 以 下 方面 进行 控制 。 
. 服务 器 采用 双 电 源 ， 以 防止 单 电源 失败 的 情况 。 
. 服务 器 使 用 独占 机 柜 。 如 果 采 用 共享 机 柜 ， 那 么 该 机 杠 的 其 他 租户 对 服务 器 的 操作 可 能 会 导致 服务 器 断 电 断 网 。 


“ 独占 机 柜 加 锁 。 对 独占 机 柜 加 锁 ， 可 以 防止 未 授权 的 对 服务 器 的 物理 接触 。 未 被 加 锁 机 柜 里 面 的 服务 器 数据 硬盘 随时 可 能 会 被 别人 拔 走 加 以 利用 。 


“ 退出 服务 器 的 本 地 shell 登 录 。 如 果 在 维护 完成 后 ， 没 有 退出 本 地 的 shell 登 录 ， 那 么 其 他 人 只 要 接 上 显示 器 和 键盘 就 可 以 直接 登录 到 你 的 系统 里 面 ， 进 行 任何 形式 的 信息 窃取 或 者 破坏 动作 。 
“ 为 机 房 维护 人 员 提 供 规范 的 操作 步 又， 例如 网 线 的 播 拔 顺 序 等 。 这 种 误 操 作 往往 会 导致 业务 的 中 断 。 

“ 重要 服务 器 必须 和 一 般 类 型 的 服务 器 隔离 放置 。 例 如 一 台 财 务 专用 的 服务 器 ， 必 须 和 一 般 的 Web 服 务 器 、 静 态 文件 服务 器 进行 物理 隔离 ， 目 的 是 防止 对 服务 器 数据 的 误 操作 。 

“ 定期 评估 服务 器 的 物理 安全 措施 和 实施 进度 。 

“ 对 交换 机 端口 进行 安全 设 定 ， 防 止 未 授权 的 服务 器 或 者 PC 等 接 入 、 防 止 恶 意 的 嗅 探 或 者 ARP 苏 骗 攻 击 。 


“ 针对 重要 数据 ， 采 用 异地 备份 或 者 异地 数据 同步 的 方案 。 当 发 生 灾难 事故 的 时 候 ， 可 以 做 到 数据 恢复 。 


最 佳 实践 61 : 网 络 层 安全 措施 


在 保障 了 服务 器 的 物理 安全 之 后 ， 要 考虑 服务 器 的 网 络 安全 。 服 务 器 通过 网 络 对 外 提供 服务 ， 如 果 没 有 配置 合理 的 安全 措施 ， 那 么 这 些 服务 器 会 被 别 有 


施 呢 ? 


首先 ， 对 于 不 需要 配置 外 网 |P 的 


下 面 的 实例 ， 是 基于 如 下 的 网 络 


' 允许 icmp 协 议 。 


“ 允许 所 有 IP 访 问 本 机 的 80 端 口 Web 服 务 。 


其 次 ， 对 于 有 外 网 的 服务 器 ， 可 以 使 


层 安全 需求 的 。 


防火 墙 进行 保护 。 


- 允许 本 机 访问 202.96.209.5、114.114.114.114 的 DNS 服 务 。 


肛 务 器 ， 只 配置 内 网 地 址 。 这 样 就 可 以 避免 服务 器 被 扫描 软件 发 现 ， 减 少 被 侵入 的 可 能 性 。 


“允许 61.172.240.227、61.172.240.228、61.172.240.229 访 问 本 机 的 SSHD 服 务 ( 对 Linux 和 FreeBSD) 。 


“允许 61.172.240.227、61.172.240.228、61.172.240.229 访 问 本 机 的 远程 桌面 服务 (对 Windows) o 


“ 禁止 任何 其 他 通信 。 


可 以 使 
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不 同 的 方式 实现 防火 墙 的 策略 。 


以 下 防火 墙 配置 操作 时 ， 务 必 谨 慎 ， 否 则 可 能 导致 自己 被 关 在 服务 器 外 面 无 法 登录 。 


建议 : 


1) 使 用 带 外 或 者 在 机 房 有 职守 人 员 时 操作 ; 


2) 在 正式 环境 部 署 前 先 在 测试 环境 中 进行 部 署 。 


使 用 Linux 的 iptables 限 制 网 络 访问 


Linux 中 的 大 部 分 发 行 版 都 有 一 个 内 置 的 、 功 能 强大 的 防火 墙 
它 负责 实际 的 过 滤 动 作 。 
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可 以 使 


如 下 iptables 命 令 : 


心 的 人 入 侵 。 具 体 来 看 ， 网 络 


iptables， 更 确切 地 说 ， 是 iptables/netfilter。1ptables 是 用 户 态 的 模块 ， 读 者 可 以 使 


层 有 哪些 安全 措 


这 个 模块 进行 规则 配置 。 Netfilter 是 内 核 模 


#!/bin/bash 


iptables 
iptables 
iptables 
iptables 
iptables 
iptables 
iptables 
iptables 
iptables 
iptables 
iptables 
iptables 
iptables 
iptables 


-F 
-A 
-A 
-A 
-A 
-A 
-A 
-A 
-A 
-A 
-A 
-A 
-A 
-A 


INPUT 
INPUT 
INPUT 
INPUT 
INPUT 
INPUT 
INPUT 
INPUT 
INPUT 
INPUT 
INPUT 
INPUT 


-i 
-5 
E 
E 
ZB 
zB. 
BR 
ZR 
E 
"B 


| 


lo -j ACCEPT 
127.0.0.1 -d 127.0.0.1 -j ACCEPT 
icmp --icmp-type any -j ACCEPT # 人 允许 icmp 协 议 ，Ping 

tcp --dport 80 -j ACCEPT # 人 允许 所 有 IP 访 问 80 端 口 

202.96.209.5 --sport 53 -j ACCEPT # 人 允许 访问 DNS 
202.96.209.5 --sport 53 -j ACCEPT # 人 允许 访问 DNS 
114.114.114.114 --sport 53 -j ACCEPT # 人 允许 访问 DNS 
114.114.114.114 --sport 53 -j ACCEPT # 人 允许 访问 DNS 
61.172.240.227 --dport 22 -j ACCEPT # 限 制 对 22 端 口 的 访问 
61.172.240.228 --dport 22 -j ACCEPT # 限 制 对 22 端 口 的 访问 
61.172.240.229 --dport 22 -j ACCEPT # 限 制 对 22 端 口 的 访问 


tcp -s 
udp -s 
tcp -s 
udp -s 
tcp -s 
tcp -s 


tcp -s 
DROP 4 


FORWARD -j DROP # 禁 止 转发 


其 他 通信 一 律 禁 止 


使 用 Windows Server 2003 Enterprise 的 ipsecpol 限 制 网 络 访问 


Windows 2003 的 IPsec 策略 引擎 提供 了 一 种 有 效 防护 网 络 接 


即使 有 其 他 的 保护 方案 ， 使 用 ipsecpol 也 可 以 增加 一 层 额 外 的 防护 。 


使 用 如 下 命令 达到 基本 的 防护 : 


的 方案 。 如 果 Windows 服 务 器 没有 被 专用 防火 墙 或 者 路 由 器 的 访问 控制 列表 保护 ， 那 么 使 用 ipsecpol 保 护 就 成 为 一 个 必须 要 做 的 事情 。 


UUUUUUU 


以 如 下 命令 为 例 ， 说 明 参 数 : 


:\web2003sec\2003ipc>ipsecpol -x 
:\web2003sec\2003ipc>ipsecpol -x 
:\web2003sec\2003ipc>ipsecpol -x 
:\web2003sec\2003ipc>ipsecpol] -x 
:\web2003sec\2003ipc>ipsecpol -x 
:\web2003sec\2003ipc>ipsecpol -x 
:\web2003sec\2003ipc>ipsecpol -x 


-w 
-w 
-w 
-w 
-w 
-w 
-w 


-P 
P 
P 
P 
E 
E 
-P 


"mypolicy" 
"mypolicy" 
"mypolicy" 
"mypolicy" 
"mypolicy" 
"mypolicy" 
"mypolicy" 


-f 
-f 
-f 
=f 
zE 
=f 
=f 


*=0:135:tcp -r "blockT135" -n BLOCK # 显 式 的 禁止 135 端 口 

*-0:139:tcp -r "blockT139" -n BLOCK # 显 式 的 禁止 139 端 口 

*-0:445:tcp -r "blockT445" -n BLOCK # 显 式 的 禁止 445 端 口 

*-0:3389:tcp -r "blockT3389" -n BLOCK# 显 式 的 禁止 3389 端 口 
61.172.240.227-0:3389:tcp -r "allowT3389.1" -n PASS # 对 安全 地 址 打开 3389 端 口 
61.172.240.228-0:3389:tcp -r " allowT3389.2" -n PASS # 对 安全 地 址 打开 3389 端 口 
61.172.240.229-0:3389:tcp -r " allowT3389.3" -n PASS # 对 安全 地 址 打开 3389 端 口 


ipsecpol -x -w REG -p "mypolicy" -f *-0:135: 


tcp -r "blockT135" -n BLOCK 


“ -WREG 把 该 策略 写 入 注册 表 。 


“ -p mypolicy 创 建 一 条 名 为 mypolicy 的 策略 。 


“ -rblockT135 创 建 一 条 名 为 blockT135 的 规则 。 


. -人 r=0: 


135: tcp* 表 示 任 何 来 源 IP。0 表 示 本 机 的 所 有 IP; 135 表 示 本 机 的 135 端 口 ; tcp 表 示 使 用 到 的 协议 。 


: -nBLOCK 设 置 该 规则 为 禁止 通信 。 


注意 


默认 ipsecpol 的 规则 是 允许 所 有 。 因 此 ， 需 要 防护 的 端口 需要 显 式 地 使 用 -n BLOCK 进 行 禁止 除 可 以 信任 的 IP 之 外 的 访问 。 


使 用 Windows Server 2008 Enterprise 的 netsh advfirewall 限 制 网 络 访问 


Netsh advfirewall 是 具有 高 级 安全 特性 的 Windows 防 火 墙 的 命令 行 管理 工具 。 使 用 这 个 工具 ， 可 以 创建 、 管 理 和 监控 Windows 防 火 墙 。 


区 


在 以 下 的 环境 中 特别 有 用 。 


“ 通过 广域网 部 署 Windows 防 火 墙 时 ， 相 对 于 图 形 化 的 管理 界面 ， 使 用 命令 行 具有 更 好 的 交互 性 。 


“ 部 署 批量 的 Windows 服 务 器 时 ， 使 用 命令 行 模 式 可 以 编写 脚本 ， 更 加 高 效率 地 部 署 多 台 服 务 器 。 


可 以 使 用 如 下 命令 来 达到 配置 Windows 防 火 墙 的 目的 : 


netsh advfirewall firewall add rule name="permitT80 (WebAccess)" protocol-TCP dir=in localport=80 action-allow # 开 放 80 端 口 访问 

netsh advfirewall firewall add rule name="permitU53 (DNSAccess)" protocol-UDP di n remoteip-202.96.209.5/255.255.255.255, 114.114.114.114/255.255.255.255 remoteport-53 action- 
netsh advfirewall firewall add rule name-"permitT53(DNSAccess)" protocol-TCP dir-in remoteip-202.96.209.5/255.255.255.255, 114.114.114.114/255.255.255.255 remoteport-53 action= 
netsh advfirewall firewall add rule name-"permitT3389 (RDPAccess)" protocol-TCP dir-in remoteip-61.172.240.227/255.255.255.255, 61.172.240.228/255.255.255.255, 61.172.240.229/2t 
netsh advfirewall firewall add rule name-"ICMPAllow" protocol-icmpv4:any,any dir-in action-allow # 人 允许 ICMP, ping 


使 用 如 下 命令 可 以 看 到 当前 的 默认 策略 : 


netsh advfirewall show publicprofile 
公用 配置 文件 设置 : 


状态 打开 

防火 墙 策略 BlockInbound,AllowOutbound # 注 意 这 一 条 ， 默 认 禁 止 入 站 ， 人 允许 出 站 
LocalFirewallRules N/A (fX GPO 存储 ) 

LocalConSecRules N/A (fX GPO 存储 ) 

InboundUserNotification 禁 月 

RemoteManagement ZH 

UnicastResponseToMulticast JHH 

Hà: 

LogAllowedConnections 2H 

LogDroppedConnections 2H 

FileName $systemroot$ system32VLogFilesVFirewallWNpfirewall.log 
MaxFileSize 4096 

确定 。 


使 用 如 下 的 命令 可 以 看 到 当前 执行 的 规则 : 


netsh advfirewall firewall show rule name-all 
规则 名 称 : permitT80 (Web Ac: 


WN: TCP 

本 地 端口 : 80 

远程 端口 : 任何 

边缘 遍历 : f 

E: 允许 HTH 
Os 


Windows 200849 Windows 2003 的 默认 策略 不 同 。Windows 2008 默 认 是 禁止 所 有 进入 的 包 ， 克 许 所 有 主动 发 出 的 包 ; Windows 2003 默 认 是 全 部 允许。 因此 在 Windows 2008 上 ， 需 要 打开 端口 对 外 提供 服务 


时 ， 必 须 显 式 地 指定 。 


使 用 FreeBSD 的 IPFW 限 制 网 络 访问 


IPFW 是 FreeBSD 原 生 的 可 以 支持 状态 跟踪 的 防火 墙 ， 支 持 IPv4 和 IPv6。 它 由 以 下 部 分 组 成 : 
“内核 防火 墙 规 则 处 理 器 和 和 包 记录 器 ; 
“日 志 模 块 ; 
C NATH; 
.dummynet 流 量 整形 器 ; 
HAR, 
. 桥接 器 ; 


* ipstealth 模 块 。 


我 们 在 此 使 用 它 的 过 滤 功 能 来 实现 对 服务 器 的 网 络 安全 。 


在 /etc/rc.conf 中 启用 IPFW: 


firewall enable-"YES" 
firewall script-"/etc/ipfw.rules" # 配 置 IPFW 读 取 /etc/ipfw.rules 规 则 
firewall logging="YES" 


在 /etc/ipfw.rules 中 配置 规则 : 


ipfw -q -f flush 
ipfw -q add 0001 allow all from any to any via lo0 
ipfw -q add 0002 allow icmp from any to any via em0 


add 
add 
add 
add 
add 
add 
add 
add 
add 
add 


0003 
0004 
0005 
0006 
0007 
0008 
0009 
0010 
0100 
0200 


allow 
allow 
allow 
allow 
allow 
allow 
allow 
allow 
allow 


ipfw 
ipfw 
ipfw 
ipfw 
ipfw 
ipfw 
ipfw 
ipfw 
ipfw 
ipfw 


"d 
-q 
"d 
"d 
TM 
"d 
"d 
"d 
-=q 
E 


tcp 
tcp 
udp 
tcp 
udp 
tcp 
tcp 
tcp 
all 


from 
from 
from 
from 
from 
from 
from 
from 
from 


any to any 80 in via em0 
202.96.209.5 53 to any in via em0 
202.96.209.5 53 to any in via em0 
114.114.114.114 53 to any in via em0 
114.114.114.114 53 to any in via em0 
61.172.240.227 to any 22 in via em0 
61.172.240.228 to any 22 in via em0 
61.172.240.229 to any 22 in via em0 
any to any out via em0 

deny all from any to any via em0 


使 用 Cisco IOS 的 ACL 限 币 


到 访问 控制 的 目的 。 


ACL (Access Control 


Cisco 10S 的 访问 控制 殉 


网 络 访问 


表 ACL 分 2 种 ， 不 同 场合 应 


不 同 种 类 的 ACL。 


List， 访 问 控制 列表 ) 是 使 用 包 过 滤 技 术 ， 在 路 由 器 上 读 取 IP 


屋 及 第 4 层 包头 中 的 信息 如 源 地 址 、 目 的 地 址 、 源 端 


S 


等 ， 根 据 预先 定义 好 的 规则 对 包 进 行 过 滤 ， 从 而 达 


“ 标准 访问 控制 列表 。 标 准 访问 控制 列表 是 通过 使 用 IP 包 中 的 源 IP 地 址 进行 过 滤 ， 使 用 的 访问 控制 列表 号 1 到 99 来 创建 相应 的 ACL。 


“ 扩展 访问 控制 列表 。 


这 里 使 


扩展 访问 控制 列表 ， 可 以 依 


扩展 访问 列表 来 保护 Cisco 路 由 器 后 | 


据 第 4 层 的 信息 进行 过 滤 ， 


的 主机 。 使 


的 命令 如 下 : 


相对 于 标准 控制 列表 ， 可 以 进行 更 细 粒 度 的 控制 。 


Router# configure terminal 


Router (config)#ip access-list extended SDACL # 定 义 扩展 ACL， 名 称 是 SDACL 
icmp any any 


Router (config-ext-nacl)#permit 
Router (config-ext-nacl) permit 
Router (config-ext-nacl)ftpermit 
Router (config-ext-nacl) permit 
Router (config-ext-nacl) permit 
Router (config-ext-nacl) permit 
Router (config-ext-nacl)ftpermit 
) 
) 
) 


Router (config-ext-nacl) permit 


any host 


host 
host 
host 
host 
host 
host 
host 


Router (config-ext-nacl)fdeny ip any any 


Router (config-ext-nacl) texit 
Router (config)#int g0/1 


Router (config-if)#ip access-group SDACL 


Router (config-if)fexit 


( 

( 

( 

( 

( 

( 

( 

Router (config-ext-nacl) permit 
( 

( 

( 

( 

( 

( 

Router (config) #exit 


Oza 


116.211.16.134 eq 80 
202. 
202. 
114.114.114.114 eq 53 host 116. 
114.114.114.114 eq 53 host 116. 
61.172.240.227 host 116.211.16. 
61.172.240.228 host 116.211.16. 
61.172.240.229 host 116.211.16. 
# 默 认 禁止 所 有 


out # 把 AcI 绑 定 到 g0/1 的 出 方向 


在 使 用 Cisco 路 由 器 设置 ACL 的 时 候 ， 请 注意 端口 的 方向 ， 不 要 把 in 和 out 杭 反 了 。 


96.209.5 eq 53 host 116.211.16. 
96.209.5 eq 53 host 116.211.16. 
2M. 
211. 


134 
134 
134 


134 

134 

16.134 
16.134 
eq 22 
eq 22 
eq 22 


端口 扫描 的 重要 性 
通过 对 网 络 层 安全 措施 的 最 佳 实践 ， 我 们 了 解 和 学 习 了 各 种 保障 网 络 安全 的 方法 。 但 是 ， 需 要 注意 的 是 ， 这 并 不 是 一 劳 永 逸 的 事情 ， 原 因 有 以 下 几 方面 。 


“ 随 着 业务 的 变化 ， 可 能 会 导致 原来 对 外 开放 的 端口 需要 保护 起 来 。 例 如 ， 原 来 做 对 外 的 网 站 ， 改 成 了 系统 管理 的 网 站 。 那 么 此 时 ， 网 络 层 安全 策略 就 需要 进行 调整 。 


“ 管理 员 在 调试 业务 的 时 候 ， 可 能 会 随手 执行 关闭 防火 墙 的 动作 ， 而 调试 后 忘记 启用 防火 墙 。 那 么 整个 服务 器 就 完全 被 暴露 在 了 公 网 上 ， 产 生 重 大 的 安全 风险 。 


“ 某 些 硬件 设备 的 失效 。 在 运 维 实践 中 ， 笔 者 曾经 遇 到 过 某 品牌 的 国产 交换 机 上 ACL 失 效 的 问题 ， 问 题 的 来 源 是 ACL 的 数量 超过 了 其 支持 的 最 大 数量 导致 所 有 ACL 全 部 失效 。 试 想 一 下 ， 如 果 一 台 防 护 众 
多 服务 器 的 交换 机 或 者 防火 墙 安全 策略 失效 了 ， 这 是 一 个 多 么 危险 的 事情 。 


正 因为 以 上 原因 ， 需 要 对 网 络 


], 


县 安全 措施 进行 监控 ， 持 续 地 发 现 其 中 的 失效 问题 、 变 化 。 端 口 


扫描 是 发 现 这 种 问题 的 一 个 关键 和 核心 的 方法 。 


“ 在 规模 不 大 的 情况 下 ， 直 接手 动 或 者 定时 执行 9map 工 具 进行 端口 扫描 即 可 。nmap 的 官方 网 站 是 https://nmap.org。 对 于 TCP 端 口 ， 使 用 如 下 的 命令 即 可 : 


# nmap -sS 10.1.6.38 -pl-65535 --max-retries 1 --host-timeout 10m 
#-sS 指 定 使 用 TCP Syn 方 法 进行 端口 探测 
#-p1-65535 指定 对 该 IP 的 1 到 65535 全 部 进行 扫描 


#--max-retries 1 重 试 1 次 


#--host-timeout 10m 该 主机 在 10m 内 完成 ， 否 则 退出 
Starting Nmap 4.11 ( http://www.insecure.org/nmap/ ) at 2015-12-24 09:48 CST 
Interesting ports on U-0638-Bak (10.1.6.38): 


Not shown: 65531 closed ports 
PORT STATE SERVICE 
5666/tcp open unknown 
8649/tcp open unknown 
38422/tcp open unknown 
58422/tcp open unknown 
MAC Address: 78:2B:CB:60:46:41 


(Unknown) 


#open 状 态 需 要 特别 注意 ， 需 要 确认 是 否 是 主动 打开 


Nmap finished: 1 IP address (1 host up) scanned in 2.693 seconds 


Ff 还 是 其 他 问题 导致 的 


分 。 


“ 在 服务 器 规模 超过 100 台 时 ， 建 议 使 用 多 进程 的 方式 进行 并 行 扫 描 ， 此 时 可 以 节省 扫描 的 时 间 ， 提 高 扫描 效率 。 关 于 使 用 多 进程 编程 的 方法 ， 请 参阅 本 书 “ 第 18 章 利用 Perl 编 程 实施 高 效 运 维 ” 的 部 


分 布 式 DDOS 的 防护 


为 攻击 平台 ， 对 一 个 或 多 个 目标 发 对 


DDOS (Distributed Denial of Service， 分 布 式 拒绝 服务 攻击 ) ， 是 指 借助 了 
DDOS 攻 击 ， 从 而 成 倍 地 提高 拒绝 服务 攻击 的 


一 个 典型 的 DDOS 攻 击 的 逻辑 图 如 


[ 


[ 


am 


四 客 通过 控制 机 ， 向 被 其 控制 的 


另外 一 种 典型 的 DDOS 攻 击 模式 如 


肉鸡 (被 入 侵 后 的 服务 器 、PC 等 ) 发 起 指令 ， 
造成 直接 的 经 济 损失 。 在 这 种 攻击 模式 下 ， 攻 击 的 能 力 取决 于 


11-1 所 示 。 


[ 


11-2 所 示 。 


客户 /服务 器 技术 ， 将 多 个 计算 机 (特别 是 僵 
威力 。 


通过 木马 程序 发 起 流量 ， 引 导 到 被 攻击 服务 器 。 被 攻击 服务 器 受 限于 带宽 和 CPU 处 理 能 
客 可 以 控制 的 肉鸡 的 数量 及 肉鸡 提供 的 网 络 带宽 容量 。 


尸 网 络 的 肉鸡 ， 指 被 黑客 入 侵 后 控制 的 网 络 服务 器 或 者 个 人 PC) 联合 起 来 作 


， 导 致 无 法 向 正常 


户 提供 服 


v 

E 
e 

ss 


i 
黑客 肉鸡 服务 器 1 
SS 
流量 5 


a 被 攻击 服务 器 
S 


2 


图 11-1 DDOS $ 
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/ 
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Š P4 开放 DNS 服务 器 2 被 攻击 服务 加 
T j 


Td 


图 11-2 ”利用 放大 攻击 实施 DDOS 逻 辑 图 


这 种 模式 情况 下 ， 肉 鸡 服务 器 通过 构造 虚假 的 DNS 请 求 (UDP 数据 以 被 攻击 服务 器 作为 来 源 IP) 向 全 球 数量 巨大 的 开放 DNS 服务 器 发 起 请 求 ， 开 放 DNS 服 务 器 产生 响应 后 发 送 到 被 攻击 服务 器 。 


在 这 种 攻击 模式 下 ， 攻 击 行为 充分 利用 了 DNS 请 求 响应 的 非 对 称 特点 ， 即 请 求 数据 流量 小 ， 响 应 数据 流量 大 。 在 一 个 典型 的 DNS 放大 攻击 (DNS Amplification Attack) 或 者 NTP 放 大 攻击 (NTP 
Amplification Attack) 中 ， 响 应 数据 和 请 求 数据 的 数据 量 对 比 可 以 达到 20: 1 甚至 200: 1， 放 大 效果 非常 明显 。 同 时 UDP 不 需要 实际 建立 连接 ， 对 源 地 址 没有 任何 形式 的 校 验 ， 因 此 肉鸡 可 以 伪装 成 被 攻 
击 服务 器 发 起 UDP 请 求 。 


在 目前 的 情况 下 ，DDOSI 以 UDP 协议 为 多 ， 同 时 利用 类 似 DNS 反 射 或 者 NTP 反 射 的 漏洞 进行 攻击 。 在 遭受 小 流量 DDOS 攻 击 时 ， 可 以 通过 上 层 设备 过 滤 非法 的 UDP 数据 进行 清洗 。 在 遭受 大 流量 DDOS 
时 ， 目 前 比较 好 的 方案 是 和 电信 运营 商 合作 ， 在 源头 上 或 者 |ISP 互 联 的 接口 上 进行 清洗 。 有 兴趣 的 读者 ， 可 以 参考 下 云 坦 的 方案 。 云 坦 是 中 国电 信 推 出 的 运营 商 级 DDOS 防 护 方案 ， 使 用 灵活 、 高 效 。 官 方 网 
站 是 http://www.damddos.com。 


最 佳 实践 62: 应 用 层 安 全 措施 


客户 端的 数据 经 过 网 络 层 的 过 滤 后 到 达 了 应 用 程序 ， 应 用 程序 对 客户 端的 数据 进行 解析 和 处 理 。 应 用 层 的 安全 措施 ， 主 要 包括 对 账号 密码 的 保护 、SSHD 的 安全 配置 、Web 服 务 器 安全 、 数 据 库 安全 、 
BIND 的 安全 配置 等 。 通 过 这 些 措施 ， 可 以 防止 非 授 权 的 访问 、 避 免 数 据 被 非法 泄露 以 及 提高 系统 安全 性 和 可 用 性 。 以 下 的 各 个 小 节 会 对 应 用 层 安 全 措施 进行 详细 讲解 。 


密码 安全 策略 


在 需要 认证 客户 端的 应 用 程序 中 ， 目 前 使 用 比较 多 的 仍然 是 通过 用 户 输入 账号 和 密码 来 进行 确认 ， 例 如 登录 SMTP 邮 箱 、 登 录 微 博 和 购物 网 站 结算 等 。 制 定 一 个 科学 有 效 的 密码 策略 可 以 从 以 下 方面 进 


“ 立即 修改 系统 默认 密码 。 有 部 分 的 开源 软件 或 者 商业 硬件 ， 在 初始 交付 的 时 候 ， 会 内 置 默认 密码 ， 以 方便 管理 员 进 行 配置 。 运 维 工程 师 们 ， 在 接触 此 类 软件 或 者 硬件 时 ， 初 始 化 的 第 一 步 一 定 是 修改 
默认 密码 。 

“ 对 测试 账号 严格 要 求 。 很 多 开发 人 员 或 者 测试 人 员 ， 为 了 简便 性 考虑 ， 喜 欢 用 非常 简单 的 账号 和 密码 来 测试 系统 ， 使 用 12345678 类 似 账号 的 情况 屡见不鲜 。 殊 不 知 ， 这 样 就 给 系统 留 下 了 一 个 “定时 
炸弹 ”。 在 系统 上 线 后 可 能 因为 某 些 测试 账号 被 黑客 所 入 侵 。 因 此 倡议 ， 即 使 是 创建 测试 账号 ， 也 一 定 要 符合 密码 安全 策略 。 


“ 密码 符合 一 定 的 复杂 度 。 如 果 系统 被 外 部 用 户 所 使 用 ， 那 需要 教育 和 提醒 用 户 不 要 使 用 包含 有 生日 或 者 身份 证 号 码 的 密码 ， 更 不 要 和 用 户 名 相同 。 推 荐 使 用 密码 生成 器 作为 服务 器 系统 的 密码 ， 例 如 
Keepass (官网 : keepassinfo) 等 。 如 图 11-3 所 示 ， 生 成 8 位 包含 了 数字 、 大 小 写 和 下 划 线 的 随机 密码 。 


“ 密码 加 密 存 储 。 在 Keepass 中 ， 所 有 密码 以 加 密 方式 存储 。 这 样 就 可 以 防止 电脑 丢失 时 或 者 被 恶意 软件 入 侵 后 明文 密码 被 泄露 的 情况 。 

“ 定期 更 换 密码 。 

“ 使 用 验证 码 防 止 黑 客 使 用 密码 工具 进行 保留 破解 。 一 个 在 线 提 供 验 证 码 服务 的 是 rrCAPTCHA 项 目 。 

:使 用 密码 检查 工具 ， 对 服务 器 系统 等 密码 进行 定期 检查 ， 防 止 弱 密码 的 使 用 。 例 如 使 用 John the Rippet 等 工具 ， 可 以 对 系统 密码 强度 进行 检查 。 


“ 在 发 布 共享 文档 时 ， 把 涉及 密码 的 敏感 信息 加 以 处 理 。 在 使 用 搜索 引擎 的 时 候 ， 很 多 文档 里 面 会 泄露 这 样 那样 的 账号 信息 ， 这 个 需要 引起 运 维 人 员 的 注意 。 


Password Generalo 


w Generate Random Password 
p Here you can generate a random passed 


Current settings 
& Generate using character sett 
Length of generated password: 


Dspace () 

Specal (l, $, h, B, ....) 

| [Brackets (T, l 6 5 Gs < 2] 
M High ANSI characters 


7 Q^ 
Ako include the folowing charachers- 


O Generate using pattern: 


Tamigi gemure charactere o? pastama 


[| Collect additional entropy 


Benerated pessaird 


Qm Ca E m 


图 11-3 ”使 用 Keepass 生 成 强 密码 


SSHD 安 全 配置 


SSHD， 对 于 Linux、UNIX 运 维 工 程 师 来 说 是 最 为 熟悉 的 服务 之 一 。 运 维 工 程 师 们 通过 SSHD 去 使 用 命令 行 管理 和 配置 服务 器 。 作 为 最 重要 的 管理 通道 ,保障 SSHD 的 安全 ， 成 为 Linux 安 全 的 重要 部 分 。 
本 节 将 通过 以 下 几 个 方面 介绍 SSHD 的 安全 配置 。 


“ 使 用 TCP Wrappers 增 加 安全 性 。 


“ SSHD 的 安全 配置 项 。 


< PAM 增 加 系统 安全 性 。 


1. 使 用 TCP Wrappers 增 加 安全 性 


TCP Wrappers 是 一 个 基于 主机 的 ACL 系 统 ， 它 被 用 来 过 滤 对 Linux、UNIX 系 统 提供 的 网 络 服务 的 访问 。 它 通过 libwrap 向 daemon 进 程 提供 过 滤 功能 。 


对 于 一 个 应 用 程序 是 否 使 用 了 libwrap 的 功能 ， 可 以 使 用 如 下 方法 来 确认 。 


以 SSHD 为 例 : 


[root@ossec-server ~]# ldd /usr/sbin/sshd 
linux-vdso.so.1 =>  (0x00007fffbdca8000) 
libwrap.so.0 => /lib64/libwrap.so.0 (0x00002ac7a9ed9000) # 连 接 到 了 libwrap， 可 以 使 用 TCP Wrappers 进 行 防护 
libpam.so.0 => /lib64/libpam.so.0 (0x00002ac7aa0e2000) 
libdl.so.2 => /1lib64/libdl.so.2 (0x00002ac7aa2ee000) 
libselinux.so.1 => /lib64/libselinux.so.1 (0x00002ac7aa4f2000) 
libaudit.so.0 => /lib64/libaudit.so.0 (0x00002ac7aa70a000) 
libfipscheck.so.1 => /usr/lib64/libfipscheck.so.1 (0x00002ac7aa923000) 
libcrypto.so.6 => /lib64/libcrypto.so.6 (0x00002ac7aab25000) 
libutil.so.1l => /lib64/libutil.so.1 (0x00002ac7aae77000) 
libz.so.1 => /lib64/libz.so.1 (0x00002ac7ab070000) 
libnsl.so.1 => /lib64/libnsl.so.1 (0x00002ac7ab28f000) 
libcrypt.so.1 => /lib64/libcrypt.so.1 (0x00002ac7ab4a7000) 
libresolv.so.2 => /lib64/libresolv.so.2 (0x00002ac7ab6e0000) 
libgssapi krb5.so.2 => /usr/lib64/libgssapi krb5.so.2 (0x00002ac7ab8f5000) 
libkrb5.so.3 -» /usr/lib64/libkrb5.so.3 (0x00002ac7abb23000) 
libk5crypto.so.3 => /usr/lib64/libk5crypto.so.3 (0x00002ac7abdb9000) 
libcom err.so.2 => /lib64/libcom err.so.2 (0x00002ac7abfde000) 
libnss3.so -» /usr/lib64/libnss3.so (0x00002ac7ac1e0000) 
libc.so.6 => /lib64/libc.so.6 (0x00002ac7ac514000) 
/lib64/1ld-linux-x86-64.s0.2 (0x0000003255200000) 
libsepol.so.1 => /lib64/libsepol.so.1 (0x00002ac7ac868000) 
libkrb5support.so.0 -» /usr/lib64/libkrb5support.so.0 (0x00002ac7acab4000) 
libkeyutils.so.1 => /lib64/libkeyutils.so.1 (0x00002ac7accbc000) 
libnssutil3.so => /usr/lib64/libnssutil3.so (0x00002ac7acebe000) 
libplc4.so => /usr/lib64/libplc4.so (0x00002ac7ad0e9000) 
libplds4.so => /usr/lib64/libplds4.so (0x00002ac7ad2eqd000) 
libnspr4.so => /usr/lib64/libnspr4.so (0x00002ac7ad4f0000) 
libpthread.so.0 => /lib64/libpthread.so.0 (0x00002ac7ad72c000) 
librt.so.1 => /lib64/librt.so.1 (0x00002ac7ad948000) 


TCP Wrappers 的 工作 流程 如 下 。 


1) 它 读 取 /etc/hosts allow， 如 果 能 匹配 到 策略 ， 则 人 允许; 否则 进行 下 一 步 。 


2) 它 读 取 /etc/hosts.deny， 如 果 能 匹配 到 策略 ， 则 拒绝 ， 否 则 允许 。 


以 只 允许 10.0.0.0/8 访 问 SSHD 为 例 ， 以 上 2 个 文件 的 内 容 分 别 是 : 


# cat /etc/hosts.allow 
sshd:10.0.0.0/255.0.0.0 
# cat /etc/hosts.deny 
sshd:ALL 


2.SSHD 的 安全 配置 项 


在 实践 中 ， 以 下 SSHD 配 置 项 是 关系 到 安全 的 


配置 。 
“ PermitRootLogin: 是 否 允 许 root 用 户 登 录 。 建 议 设 置 为 no。 同 时 新 增 一 个 用 于 登录 的 账号 如 myadmin， 赋 予 sudo 权 限 。 禁 用 root 登 录 ， 能 直接 减少 黑客 暴力 破解 的 威胁 。 


- RSA Authentication, Pubkey Authentication: 公 铀 私 钥 认证 。 建 议 设置 为 0o。 统 一 强制 用 户 使 用 密码 登录 。 公 钥 私 钥 认 证 带 来 便利 性 的 同时 ， 也 会 因为 密 钥 泄 露 或 者 密 钥 没有 密码 保护 而 出 现 安全 问 


3. 使 用 PAM 增 加 系统 安全 性 


PAM (Pluggable Authentication Modules for Linux，Linux 可 播 拔 的 认证 模块 ) 是 一 组 共享 库 来 支持 系统 对 管理 员 的 认证 。 通 过 SSHD 结 合 PAM ， 可 以 实现 以 下 功能 。 
- 结合 LDAP 进 行 统一 认证 。 


“ 使 用 动态 口令 卡 ， 防 止 静态 密码 泄露 的 问题 。 


在 sshd_config 中 ,使 用 如 下 指令 启用 PAM: 


UsePAM yes 


PAM 配 置 文件 的 格式 如 下 : 


# cat /etc/pam.d/system-auth 

#SPAM-1.0 

# This file is auto-generated. 

# User changes will be destroyed the next time authconfig is run. 

auth required pam env.so 

auth requisite pam unix.so nullok try first pass # 首 先 必 须 通过 系统 的 账号 密码 认证 

auth sufficient /lib64/security/pam ekey.so # 在 此 处 ， 我 们 可 以 定义 自己 的 PRM 处 理 逻 辑 ， 如 动态 口令 、 管 理 员 额外 信息 认证 等 
auth requisite pam succeed if.so uid »- 500 quiet 

auth required pam deny.so 


account required pam unix.so 
account sufficient pam succeed if.so uid « 500 quiet 
account required pam permit.so 


password requisite pam cracklib.so try first pass retry-3 
password sufficient pam unix.so md5 shadow nullok try first pass use authtok 
password required pam deny.so 


session optional pam keyinit.so revoke 

session required pam limits.so 

session [success-1 default-ignore] pam succeed if.so service in crond quiet use uid 
session required pam unix.so 


Web 服 务 器 安全 


Web 服 务 器 对 外 部 提供 网 络 访问 服务 ， 只 要 拥有 一 台 可 以 联网 的 计算 机 ， 黑 客 就 可 以 对 Web 服 务 器 进行 不 断 的 入 侵 尝 试 。 


1. 常 见 的 攻击 方法 
首先 来 了 解 下 目前 常见 的 针对 Web 服 务 器 的 攻击 方法 。 


(1) URL 解 析 错 误 


在 2010 年 曾经 发 生 过 一 个 Nginx 解 析 的 问题 ， 导 致 大 量 基 于 Nginx+PHP 的 网 站 被 入 侵 。 


漏洞 介绍 : Nginx 是 一 款 高 性 能 的 Web 服 务 器 ， 使 用 非常 广泛 ， 其 不 仅 经 常 被 用 作 反 向 代理 ， 也 可 以 非常 好 地 支持 PHP 的 运行 。 默 认 情况 下 可 能 导致 服务 器 错误 地 将 任何 类 型 的 文件 以 PHP 的 方式 进行 


解析 ， 这 将 导致 严重 的 安全 问题 ， 使 得 恶意 的 攻击 者 可 能 攻陷 支持 PHP 的 Nginx 服 务 器 。 


漏洞 分 析 : Nginx 默 认 以 cgi 的 方式 支持 PHP 的 运行 ， 辟 如 在 配置 文件 当中 可 以 以 如 下 的 方式 支持 对 PHP 的 解析 ，location 对 请 求 进行 选择 的 时 候 会 使 用 URI 环 境 变量 进行 选择 ， 其 中 传递 到 后 端 Fastcgi 


的 关键 变量 SCRIPT_FILENAME 由 nginx 生 成 的 $fastcgi_script_name 决 定 ， 而 通过 分 析 可 以 看 到 $fastcgi_script_name 是 直接 由 URI 环 境 变量 控制 的 ， 这 里 就 是 产生 问题 的 点 。 而 为 了 较 好 地 支持 


PATH_INFO 的 提取 ， 在 PHP 的 配置 选项 里 存在 cgi.fix_pathinfo 选 项 ， 其 


的 是 为 了 从 SCRIPT_FILENAME 里 取出 真正 的 脚本 名 。 


location ~ N.php$ ( 
root html; 
fastcgi pass 127.0.0.1:9000; 
fastcgi index index.php; 


fastcgi param SCRIPT FILENAME /scripts$fastcgi script name; 


include fastcgi params; 


那么 假设 存在 一 个 http://www.xxx.com/xxxjpg， 以 如 下 的 方式 去 访问 将 会 得 到 一 个 URI/xxx.jpg/xxx.php。 


http://www .xxx.com/xxx.jpg/xxx.php 


经 过 |ocation 指 令 ， 该 请 求 将 会 交 给 后 端的 fastcgi 处 理 ，Nginx 为 其 设置 环境 变量 SCRIPT_FILENAME， 内 容 为 /scripts/xxx.jpg/xxx.php。 而 在 其 他 的 WebServer 如 Lighttpd 当 中 ， 发 现 其 中 的 


SCRIPT_FILENAME 被 正确 的 设置 为 /scripts/xxxjpg， 所 以 不 存在 此 问题 。 


后 端的 fastcgi 在 接 到 该 选项 时 ， 会 根据 fix_pathinfo 配 置 决定 是 否 对 SCRIPT_FILENAME 进 行 额外 的 处 理 ， 一 般 情 况 下 如 果 不 对 fix_pathinfo 进 行 设置 将 影响 使 用 PATH_INFO 进 行路 由 选择 的 应 用 ， 所 


以 该 选项 一 般配 置 开 启 。PHP 通 过 该 选项 之 后 将 查找 其 中 真正 的 脚本 文件 名 字 ， 查 找 的 方式 也 是 查看 文件 是 否 存 在 ， 这 个 时 候 将 分 离 出 SCRIPT_FILENAME 和 PATH_INFO， 分 别 为 /scripts/xxxjpg 和 
xxx.php。 最 后 ， 以 /scripts/xxxjpg 作 为 此 次 请 求 需要 执行 的 脚本 ， 攻 击 者 就 可 以 实现 让 Nginx 以 PHP 来 解析 任何 类 型 的 文件 了 。 


访问 一 个 Nginx 来 支持 PHP 的 站 点 ， 在 一 个 任何 资源 的 文件 如 robots.txt 后 面 加 上 /xxx.php， 这 个 时 候 可 以 看 到 如 下 区 别 。 


访问 http://www.xxx.com/robots.txt: 


HTTP/1.1 200 OK 

Server: nginx/0.6.32 

Date: Thu, 20 May 2010 10:05:30 GMT 
Content-Type: text/plain 

Content-Length: 18 

Last-Modified: Thu, 20 May 2010 06:26:34 GMT 
Connection: keep-alive 

Keep-Alive: timeout-20 

Accept-Ranges: bytes 


访问 http://www.xxx.com/robots.txt/xxx.php: 


HTTP/1.1 200 OK 

Server: nginx/0.6.32 

Date: Thu, 20 May 2010 10:06:49 GMT 
Content-Type: text/html 
Transfer-Encoding: chunked 
Connection: keep-alive 

Keep-Alive: timeout-20 
X-Powered-By: PHP/5.2.6 


(2) 目录 遍历 


其 中 的 Content-Type 的 变化 说 明了 后 端 负责 解析 的 变化 ， 该 站 点 就 可 能 存在 漏洞 。 


往往 是 因为 服务 器 设置 不 够 严格 导致 黑客 可 以 直接 看 到 所 有 网 站 的 目录 结构 。 


(3) 获取 非 Web 文 件 

非 Web 文 件 包括 以 下 几 种 。 

“ 打包 文件 (.zip，.tar.gz 等 ) o 
备份 文件 (.bk 等 ) 。 


* headerx £F (.inc 等 ) o 


这 些 文件 可 能 包含 有 关键 信息 ， 例 如 数据 库 连 接 字符 串 设置 、 接 口 |P 地 址 和 账号 等 ， 被 非法 获取 后 将 直接 导致 信息 泄露 。 


(4) 源 代码 泄 露 


在 服务 器 配置 错误 或 者 发 生 解析 异常 时 ， 黑 客 可 以 直接 获得 源 代码 。 


(5) SQL 注入 


2. 使 用 ModSecurity 加 固 Web 服 务 器 


在 介绍 了 5 种 常见 的 针对 Web 应 用 程序 的 攻击 类 型 后 ， 现 在 使 用 ModSecurity 来 进行 针对 性 的 加 


部 署 ModSecurity 后 的 逻辑 架构 图 如 图 11-4 所 示 。 


黑客 通过 对 URL 或 者 输入 表单 的 字段 进行 恶意 构造 ， 使 得 应 用 程序 把 参数 直接 构造 成 SQL 语句 传 入 数据 库 服务 器 ， 导 致 被 “ 脱 库 ”。 


nj 


ModSecurity Web Server 


图 11-4 ”部 署 ModSecurity 逻 辑 架 构图 


ModSecurity 是 Web 应 用 层 防火 墙 (Web Application Firewall, WAF) 。 为 了 增加 Web 应 用 程序 的 安全 性 ， 需 要 使 用 WAF 来 检测 和 阻止 恶意 请 求 到 达 Web 应 用 程序 。ModSecurity 对 HTTP 流 量 进行 
实时 分 析 ， 通 过 其 内 置 的 一 系列 规则 来 抵抗 攻击 。ModSecurity 最 早 是 基于 Apache 进 行 开发 ， 作 为 Apache 的 模块 发 布 。 后 期 增加 了 对 Nginx 和 lS 等 Web 服 务 器 的 支持 。 


ModSecurity 的 强大 之 处 在 于 ， 它 内 置 了 HTTP 层 的 攻击 请 求 判断 规则 ， 例 如 HTTP 协 议 遵 从 性 的 判断 规则 、SQL 注 入 的 判断 规则 等 。ModSecurity 的 规则 下 载 地 址 
是 https://github.com/SpiderLabs/owasp-modsecurity-crs。 


数据 库 安全 策略 


数据 库 服务 器 上 存储 了 应 用 程序 记录 的 核心 数据 ， 保 障 数据 库 安 全 ， 一 般 可 以 从 以 下 方面 进行 。 


' 删除 安装 后 的 测试 数据 库 。 在 MYSQL 中， 数据 库 初 始 安装 完成 后 ， 会 生成 一 个 test 库 ， 直 接 删 除 即 可 。 


“ 检查 数据 库 的 密码 。 通 过 如 下 语句 ， 可 以 检查 出 没有 配置 密码 的 账号 。 


select User,Host,Pasword from mysql.user where Password-''; 


“ 数据 库 授 权 。 采 用 权限 最 小 化 原则 ， 对 应 用 程序 使 用 分 级 授权 。 对 于 只 需要 读 的 账号 ， 仅 仅 授予 SELECT 权限 。 


BIND 安 全 配置 


BIND 是 Linux 系 统 中 最 重要 的 域名 解析 服务 软件 ， 也 是 全 球 使 用 量 最 大 的 。BIND 的 安全 配置 主要 集中 在 以 下 两 个 方面 。 


Ej 


“ 对 于 权威 服务 器 ， 设 置 fecursion nos 


"BIND 服务 器 Crash 的 问题 。 


在 2015 年 8 月 ， 曾 经 发 生 过 一 起 针对 BIND 的 攻击 ， 攻 击 者 通过 构造 恶意 DNS 请 求 ， 导 致 权威 服务 器 BIND 进 程 挂 掉 ， 无 法 对 外 提供 解析 服务 。 
BIND 服 务 器 的 所 有 漏洞 信息 可 以 关注 : 


BIND 9 Security Vulnerability Matrix, URLhttps://kb.isc.org/article/AA-00913/74/BIND-9-Security-Vulnerability-Matrix.html。 


通过 关注 该 发 布 ， 应 及 时 分 析 和 判断 自己 使 用 的 BIND 版 本 是 否 需要 升级 。 


最 佳 实践 63: 入 侵 检测 系统 配置 


使 用 OSSEC 构 建 入 侵 检测 系统 


OSSEC 是 一 个 基于 主机 的 入 侵 检测 系统 (Host-Based Intrusion Detection System) 。 它 集成 了 HIDS、 日 志 监 控 、 安 全 事件 管理 于 一 体 。 使 用 OSSEC， 可 以 获得 以 下 几 个 好 处 。 


“ 遵从 性 要 求 。 实 施 了 OSSEC 后 ， 有 助 于 遵从 PCI 和 HIPAA 法 案 的 要 求 。 这 2 个 法 案 对 系统 一 致 性 监控 、 日 志 监 控 提 出 了 严格 要 求 。 
: 多 平台 支持 。OSSEC 同 时 支持 Linux，Solaris，Windows 和 Mac OS 义 操作 系统 。 

“ 实时 的 可 配置 的 报警 。 

“ 集中 化 的 控制 。OSSEC 服 务 器 端 部 署 在 一 台 服 务 器 上 进行 集中 管理 和 配置 。 


“ 同时 支持 基于 Agent 和 无 Agent 的 模式 。 


获得 以 上 好 处 的 原因 是 OSSEC 提 供 了 如 下 功能 。 


- 文件 一 致 性 检查 。 例 如 ， 通 过 监控 /etc/passwd 和 /etc/shadow 文 件 ， 可 以 知道 是 否 有 新 增 的 系统 用 户 或 者 用 户 账号 的 改变 情况 。 


:日志 监 控 。 例 如 ， 通 过 监控 /var/log/secure 日 志 ， 可 以 分 析出 是 否 有 密码 被 尝试 暴力 破解 的 情况 。 另 外 ， 通 过 自 定义 规 则 ， 可 以 监控 诸如 Tomcat 等 程序 的 上 日志， 如 发 生 错误 ， 则 可 以 直接 通过 邮件 通知 


到 应 用 管理 员 。 


:Rootkit 检查。 通过 对 /sbin、V/bin 等 系统 核心 命令 执行 程序 的 规则 检查 ， 可 以 知道 是 否 被 黑客 替换 成 了 恶意 程序 ， 发 现 异 常 时 可 以 报警 处 理 。 


OSSEC 的 典型 架构 图 如 图 11-5 所 示 。 
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图 11-5 OSSEC 架 构图 


本 例 中 ，OSSEC Server 端 是 10.1.6.28，Agent 端 是 10.1.6.38。 


OSSEC 的 配置 和 安装 过 程 如 下 。 


步骤 1 在 Server 端 和 Agent 端 都 需要 执行 


Windows 


Linux 


Solaris 


wget -U ossec https://bintray.com/artifact/download/ossec/ossec-hids/ossec-hids-2.8.3.tar.gz --no-check-certificate 


tar zxvf ossec-hids-2.8.3.tar.gz 


步骤 2 在 Server 端 ， 修 改 ossec-hids-2.8.3/etc/preloaded-vars.conf 内 容 如 下 : 


USER LANGUAGE-"en" # For english 
USER NO STOP-"y" # 一 站 式 安装 ， 无 须 确认 
USER INSTALL TYPE-" serve 
USER DIR-"/var/ossec" # 安 装 目录 

USER DELETE DIR-"n" # 安 装 完成 后 不 删除 原始 目 


" 坦 指定 角色 是 server 


USER ENABLE ACTIVE RESPONSE-"n" MERE Eaton d. 主动 防御 可 能 导致 误 判 


USER ENABLE SYSCHECK="y"”# 启 用 文件 一 致 性 检查 


USER ENABLE ROOTCHECK-"y" # 启 用 Rootkit 检 查 
USER ENABLE EMAIL-"y" nr 


USER EMAIL ADDRESS-"xufeng020shandagames.com" 


# 邮 箱 


USER EMAIL SMTP-"10.168.110.249" #SMTP 服 务 器 地 址 


USER ENABLE SYSLOG-"n" # 不 启用 远程 SYSLOG 


USER ENABLE FIREWALL RESPONSE-"n" # 不 启用 防火 墙 主动 干预 


USER ENABLE PF-"n" # 不 启用 PFSENSE 


步骤 3 在 Agent 端 ， 修 改 ossec-hids-2.8.3/etc/preloaded-vars.conf 内 容 如 下 : 


USER LANGUAGE-"en" # For english 
USER NO STOP-"y" # 一 站 式 安装 ， 无 须 确认 
USER INSTALL TYPE-"agent" # 角 色 agent 
USER DIR-"/var/ossec" # 安 装 目 录 


USER DELETE DIR-"n" # 安 装 完成 后 不 删除 原始 目录 
USER ENABLE ACTIVE RESPONSE-"n" # 不 启用 主动 防御 ， 


主动 防御 可 能 导致 误 判 


yn # 启 用 Rootkit 检 查 


"Yy"# 启 用 文件 一 致 性 检查 


USER AGENT SERVER IP-"10.1.6.28" # 指 定 server IP 
USER AGENT CONFIG PROFILE-"generic" # 使 用 推荐 的 配置 文件 


步骤 4， 在 Server 端 和 Agent 端 执行 安装 : 


./install.sh 


步骤 5 在 Server 端 添加 Agent: 


# /var/ossec/bin/manage agents 


ek kokcekeekeckokckedokckckekcokeek ek eee edel ek 


* OSSEC HIDS v2.8.3 Agent manager. s 
* The following options are available: * 
dekckok kk oko oko ok e ok ok ok A ok ok ok o eek 
(A)dd an agent (A). 
(E)xtract key for an agent (E). 
(L)ist already added agents (L). 
(R)emove an agent (R). 


(Q)uit. 
Choose your action: A,E,L,R or Q: A 


- Adding a new agent (use '\q' to return to the main menu). 
Please provide the following: 
* A name for the new agent: 10.1.6.38 
* The IP Address of the new agent: 10.1.6.38 
* An ID for the new agent[001]: 
Agent information: 
ID:001 
Name:10.1.6.38 #Agent 的 主机 名 或 者 IP 均 可 
IP Address:10.1.6.38 #Agent 的 IP 地 址 


Confirm adding it?(y/n): y # 确 认 增 加 
Agent added. 


dekdekcekekokodekkekek ek doleo dkeiekekeiek keen eek 


* OSSEC HIDS v2.8.3 Agent manager. * 
* The following options are available: * 
A A E E AE oko o ooo o RO OOo o o ooo OO OOo eek 
(A)dd an agent (A). 
(E)xtract key for an agent (E). 
(L)ist already added agents (L). 
(R)emove an agent (R). 
(Q)uit. 
Choose your action: A,E,L,R or Q: E 


Available agents: 
ID: 001, Name: 10.1.6.38, IP: 10.1.6.38 
Provide the ID of the agent to extract the key (or 'Nq' to quit): 001 


Agent key information for '001' is: . ; N 
MDAxIDEwLjEUNi4ZOCAxMC4xLjYuMzggNTU1ZWMOMDliZDU5YTY5ZjJA0N2R1YjZ1ZGM3YmQ10DM5YWR1ZWMONWE z YmUONGY4MzJmZDIzZMZVMODCXZTA3Yw== 4X4 ilm fE Agent EA 


步骤 6 ”在 Agent 端 配置 连接 到 Server 端 : 


# /var/ossec/bin/manage agents 


ek dokcekekeke kekckedokckckekcjokeek ek elei jede: 


* OSSEC HIDS v2.8.3 Agent manager. m 

* The following options are available: * 

AEA E E AE E oko oko oo ook ok ok o ok o OE ER OE A k 
(I)mport key from the server (I). 
(Quit. 

Choose your action: I or Q: I 


* Provide the Key generated by the server. 
* The best approach is to cut and paste it. 
*** OBS: Do not include spaces or new lines. 


Paste it here (or '\q' to quit): MDAxIDEwLjEuNi4zOCAxMCAxLj YuMzggNTUlZWMOMDliZDU5YTY52jAON2RlYjZ1ZGM3YmQlODM5YWRlZWMONWEzYmUONGY4MzJmZDIzMzVmODCxZTA3Yw-- # 输 入 Server 上 产生 的 密码 


Agent information: 
ID:001 
Name:10.1.6.38 
IP Address:10.1.6.38 


Confirm adding it?(y/n): y # 确 认 添 加 
Added. 


ZUR] ”在 Server 端 和 Agent 端 启动 OSSEC: 


/var/ossec/bin/ossec-control start 


下 面 对 OSSEC 的 配置 文件 进行 深入 剖析 。 


Server 端 配置 文件 如 下 : 


# cat ossec.conf 
«!-- OSSEC example config --> 


«ossec config» 

«global» # 局 用 邮件 通知 
«email notification»yes«/email notification» 
«email to»xufeng020shandagames.com«/email to» 
«smtp server»10.168.110.249«/smtp server» 
«email from»xufeng0280shandagames.com«/email from» 
«picviz output»noc/picviz output» " 

«/global» 


«rules» #rules 是 定义 如 何 对 日 志 进行 解析 的 关键 
Xinclude»rules config.xml«/include»? 
«include»sshd rules.xml«/include» 
«include»syslog rules.xml«/include» 
«include»pix rules.xml«/include» 
Xinclude»named rules.xml«/include» 
«include»pure-ftpd rules.xml«/include» 
«include»proftpd rules.xml«/include» 
«include»web rules.xml«/include» 
Xinclude»web appsec rules.xml«/include» 
«include»apache rules.xml«/include» 
«include»ids rules.xml«/include» 
«include»squid rules.xml«/include» 
«include»firewall rules.xml«/include» 
Xinclude»postfix rules.xml«/include» 
«include»sendmail rules.xml«/include» 
«include»spamd rules.xml«/include» 
«include»msauth rules.xml«/include» 
«include»attack rules.xml«/include» 

</rules> 


<syscheck> 
<!-- Frequency that syscheck is executed -- default every 2 hours --> 
«£requency»7200«/frequency» # 系 统一 致 性 检查 的 频率 


«!-- Directories to check (perform all possible verifications) --> 
# 定 义 监控 的 目录 

«directories check all-"yes"»/etc, /usr/bin, /usr/sbin</directories> 

«directories check all-"yes"»/bin, /sbin«/directories? 


«!-- Files/directories to ignore --># 下 列 文件 变化 频繁 ， 不 予以 监控 
«ignore»/etc/mtab«/ignore» 
«ignore»/etc/hosts.deny«/ignore» 
«ignore»/etc/mail/statistics«/ignore» 
«ignore»/etc/random-seed«/ignore» 
«ignore»/etc/adjtime«/ignore» 
«ignore»/etc/httpd/logs«/ignore» 

«/syscheck» 

#Rootkit 检 查 的 方法 

«rootcheck» 
«rootkit files»/var/ossec/etc/shared/rootkit files.txt«/rootkit files» 
«rootkit trojans»/var/ossec/etc/shared/rootkit trojans.txt«/rootkit trojans» 

«/rootcheck» T 


«global» 
«white list»127.0.0.1«/white list» 


«/global» 


«remote» 
«connection»secure«/connection» 
«/remote» 


«alerts» 
«log alert level»l«/log alert level» 
«email alert level»7«/email alert level» 
«/alerts» 
# 以 下 定义 了 主动 防御 的 可 选 方法 
«command» 
«name»host-deny«/name» 
«executable»host-deny.sh«/executable» 
«expect»srcip«/expect» 
«timeout allowed»yes«/timeout allowed» 
X/command» 


«command» 
«name»firewall-drop«/name» 
«executable»firewall-drop.sh«/executable» 
«expect»srcip«/expect» 
«timeout allowed»yes«/timeout allowed» 
X/command» 


«command» 
«name»disable-account«/name» 
«executable»disable-account.sh«/executable» 
«expect»user«/expect» 
«timeout allowed»yes«/timeout allowed» 


X/command» 
<!-- Active Response Config --» 
Xactive-response» 
«!-- This response is going to execute the host-deny 


- command for every event that fires a rule with 
- level (severity) »- 6. 
- The IP is going to be blocked for 600 seconds. 
--> 

<command>host-deny</command> 

<location>local</location> 

<level>6</level> 

<timeout>600</timeout> 

</active-response> 


<active-response> 
<!-- Firewall Drop response. Block the IP for 
- 600 seconds on the firewall (iptables, 
- ipfilter, etc). 
--» 
«command»firewall-drop«/command» 
Xlocation»local«/location» 
«level»6«/level» 
«timeout»600«/timeout» 
«/active-response» 


«!-- Files to monitor (localfiles) --> 


Xlocalfile» 
Xlog format»syslog«/log format» 
«location»/var/log/messages«/location» 
«/localfile» 


Xlocalfile» 
Xlog format»syslog«/log format» 
«location»/var/log/authlog«/location» 
«/localfile» 


Xlocalfile» 
Xlog format»syslog«/log format» 
Xlocation»/var/log/secure«/location» 
«/localfile» 


Xlocalfile» 
Xlog format»syslog«/log format» 
«location»/var/log/xferlog«/location» 
«/localfile» 


Xlocalfile» 
Xlog format»syslog«/log format» 
«location»/var/log/maillog«/location» 
«/localfile» 


Xlocalfile» 
Xlog format»apache«/log format» 
«location»/var/www/logs/access log«/location» 
«/localfile» 


Xlocalfile» 
Xlog format»apache«/log format» 
«location»/var/www/logs/error log«/location» 
«/localfile» 
«/ossec config» 


Agent 端 的 配置 文件 如 下 : 


# cat ossec.conf 
«ossec config» 


«client» 
«server-ip»10.1.6.28«/server-ip» # 指 定 Server 端 的 ITP 
</client> 
«syscheck» # 系 统 检查 配置 段 
<!-- Frequency that syscheck is executed - default to every 22 hours --> 


«£requency»79200«/frequency» # 每 22 小 时 检查 一 次 


<!-- Directories to check (perform all possible verifications) --> 
«directories check all-"yes"»/etc, /usr/bin, /usr/sbin</directories># 检 查 目录 
«directories check all-"yes"»/bin, /sbin«/directories» # 检 查 目录 


«!-- Files/directories to ignore --» 
«ignore»/etc/mtab«/ignore» 
«ignore»/etc/mnttab«/ignore» 
«ignore»/etc/hosts.deny«/ignore» 
«ignore»/etc/mail/statistics«/ignore» 
«ignore»/etc/random-seed«/ignore» 
«ignore»/etc/adjtime«/ignore» 
«ignore»/etc/httpd/logs«/ignore» 
«ignore»/etc/utmpx«/ignore» 
«ignore»/etc/wtmpx«/ignore» 
«ignore»/etc/cups/certs«/ignore» 
«ignore»/etc/dumpdates«/ignore» 
«ignore»/etc/svc/volatile«/ignore» 


«!-- Windows files to ignore --> 

«ignore»C: WINDOWS/System32/LogFiles«/ignore» 
«ignore»C: WINDOWS/Debug«/ignore» 

«ignore»C: WINDOWS/WindowsUpdate.log«/ignore» 
«ignore»C: WINDOWS/iis6.log«/ignore» 

«ignore»C: WINDOWS/system32/wbem/Logs«/ignore» 
«ignore»C: WINDOWS/system32/wbem/Repository«/ignore» 
«ignore»C: WINDOWS/Prefetch«/ignore» 

«ignore»C: WINDOWS/PCHEALTH/HELPCTR/DataColl«/ignore» 
Xignore»C:WINDOWS/SoftwareDistribution«/ignore» 
«ignore»C: WINDOWS /Temp«/ignore» 


«ignore»C: WINDOWS/system32/config«/ignore» 

«ignore»C: WINDOWS/system32/spool«/ignore» 

«ignore»C: WINDOWS/system32/CatRoot«/ignore» 
«/syscheck» 


«rootcheck» #rootkit 检 查 配 置 
<rootkit files>/var/ossec/etc/shared/rootkit files.txt«/rootkit files» 
<rootkit trojans>/var/ossec/etc/shared/rootkit trojans.txt</rootkit trojans> 
«system audit»/var/ossec/etc/shared/system audit rcl.txt«/system audit» 
«system audit»/var/ossec/etc/shared/cis debian linux rcl.txt«/system audit» 
«system audit»/var/ossec/etc/shared/cis rhel linux rcl.txt«/system audit» 
«system audit»/var/ossec/etc/shared/cis rhel5 linux rcl.txt«/system audit» 

«/rootcheck» 


«active-response» 
«disabled»yes«/disabled» # 禁 用 主动 防御 
</active-response> 


<!-- Files to monitor (localfiles) --> 
#1localfile 定 义 的 文件 会 被 传送 到 Server 端 
Xlocalfile» 
«log format»syslog«/log format» 
«location»/var/log/messages«/location» 
«/localfile» 


Xlocalfile» 
«log format»syslog«/log format» 
«location»/var/log/secure«/location» 
«/localfile» 


Xlocalfile» 
«log format»syslog«/log format» 
«location»/var/log/maillog«/location» 
«/localfile» 


Xlocalfile» 
«log format»command«/log format» 
«command»df -h«/command» 
«/localfile» 


Xlocalfile» 

Xlog format»full command«/log format» 

Xcommand»netstat -tan |grep LISTEN |grep -v 127.0.0.1 | sort«/command» 
</localfile> 


<localfile> 
<log_format>full_command</log_format> 
<command>last -n 5«/command» 
</localfile> 
</ossec_config> 


OSSEC 帮 助 获得 系统 关键 文件 的 变化 ， 并 对 可 能 的 入 侵 进行 提前 报警 。OSSEC 可 以 配置 使 用 自 定义 的 规则 ， 对 个 性 化 的 应 用 日 志 进行 监控 。 


最 佳 实践 64: Linux 备 份 与 安全 


在 最 差 的 情况 下 是 服务 器 被 入 侵 了 ， 虽 然 希 望 这 种 情况 永远 不 要 发 生 ， 但 是 必须 要 对 此 做 好 准备 。 备 份 是 应 对 这 个 情况 的 唯一 的 方案 。 


备份 与 安全 的 关系 


尽管 做 了 从 物理 层 到 网 络 层 、 应 用 层 的 防护 ， 但 是 仍然 无 法 完全 保证 系统 不 被 入 侵 。 被 入 侵 后 ， 黑 客 可 能 会 删除 或 者 修改 数据 ， 对 数据 安全 造成 严重 的 影响 。 


备份 恰恰 可 以 减轻 这 种 事件 的 影响 。 在 最 差 的 情况 下 ， 可 以 使 用 备份 数据 进行 恢复 ， 及 时 地 使 中 断 的 业务 运行 起 来 。 


有 效 的 数据 备份 ， 是 安全 体系 最 后 的 防护 ， 是 关键 时 刻 最 后 的 “救命 稻草 ”。 


数据 备份 的 注意 事项 


在 进行 数据 备份 时 ， 有 以 下 几 个 注意 事项 。 


:数据库 服 务 器 ， 要 保证 一 致 性 。 例 如 在 MySQL 备份 InnoDB 的 数据 表 时 ， 使 用 --single-transaction 使 备份 的 数据 在 同一 个 时 间 点 。 
“ 核心 数据 使 用 rar 或 者 gnupg 进 行 加 密 存储 。 


“ 离线 备份 和 在 线 备份 相 结 合 。 如 全 部 采用 在 线 备份 ， 则 存在 备份 文件 同时 被 黑客 删除 或 者 修改 的 风险 。 需 定时 把 在 线 备份 的 数据 写 入 到 磁带 或 者 光盘 中 。 


数据 恢复 测试 


在 数据 备份 完成 后 ， 必 须 建立 定期 或 者 自动 化 恢复 测试 的 机 制 ， 以 验证 备份 的 有 效 性 。 对 于 数据 库 ， 除 了 能 够 正常 解压 、 解 密 之 后 ， 需 要 进行 数据 的 导入 测试 ， 以 确认 可 以 成 功 导入 到 数据 库 中 。 


在 实践 中 ， 曾 经 遇 到 过 一 个 案例 : 某 次 需要 恢复 数据 时 ， 发 现 最 近 几 天 的 备份 完全 不 可 用 ， 只 能 恢复 到 一 周 前 的 数据 。 这 种 情况 下 ， 就 造成 了 业务 的 损失 。 


本 章 小 结 


Linux 系 统 安全 是 一 个 整体 工程 ， 也 是 一 个 长 期 工程 。 本 章 通过 分 层 的 方法 ， 由 下 到 上 建立 了 完整 的 体系 ， 各 个 部 分 有 机 结合 、 相 互 协作 。 每 一 层 的 过 滤 和 保护 ， 都 为 整体 安全 性 的 提高 做 出 了 重要 页 
献 。 通 过 搭建 入 侵 检 测 系 统 ， 可 以 明确 知道 自己 的 系统 是 否 被 黑客 不 断 尝 试 攻击 或 者 是 否 已 经 被 黑客 成 功 入 侵 。 作 为 安全 体系 的 最 后 一 道 防线 ， 有 效 的 备份 能 够 提升 应 对 威胁 的 能 力 。 


第 12 章 ”实践 Zabbix 自 定义 模板 技术 


无 论 公司 的 规模 如 何 ， 对 于 重要 业务 来 说 ， 监 控 是 一 个 必 选 项 。 快 速 发现 问 题 并 解决 问题 ， 这 仅仅 是 运 维 的 基本 价值 。 只 有 在 问题 出 现 之 前 ， 提 前 预警 可 能 的 问题 ， 并 解决 掉 ， 对 业务 无 任何 影响 ， 那 
才 是 运 维 更 高 价值 的 体现 。 


对 于 监控 ， 大 家 一 定 不 陌生 。 规 模 比 较 大 的 公司 ， 一 般 都 会 根据 需要 自行 开发 监控 系统 。 开 发 一 套 大 规模 、 分 布 式 、 高 效 的 监控 系统 ， 其 投入 是 比较 大 的 。 对 于 规模 比较 小 的 公司 来 说 ， 可 能 没有 这 么 
多 资源 来 做 这 个 系统 。 不 过 ， 这 也 没关系 ， 目 前 开源 的 监控 系统 也 有 很 多 ， 比 如 常用 的 有 Nagios、Zabbix、Cacti、Mrtg、Gangila 等 。 各 自 都 有 优 缺 点 ， 但 比较 下 来 ，Zabbix 从 功能 、 性 能 、 架 构 上 来 说 ， 都 是 
非常 不 错 的 选择 。 


本 篇 将 重点 介绍 Zabbix 的 使 用 ， 特 别 是 自 定义 模板 、 自 定义 监控 项 以 及 自动 发 现 的 使 用 实践 。 


最 佳 实践 65: 4 步 完 成 Zabbix Server 搭 建 


Zabbix Server 的 安装 非常 简单 ， 总 结 为 4 步 即 可 完成 Zabbix Server 的 搭建 。 
系统 版 本 : CentOS 6.5, 
Zabbix 版 本 : 2.4.。 


步骤 1 软件 包 安装 。 


将 下 列 软 件 包 使 用 wget 下 载 到 服务 器 上 。 


wget http://download.fedoraproject.org/pub/epel/6/x86 64/epel-release-6-8.noarch.rpm 

wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-2.4.5-1.e16.x86 64.rpm 

wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-agent-2.4.5-1.e16.x86 64.rpm 

wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-get-2.4.5-1.e16.x86 64.rpm 

wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-server-2.4.5-1.e16.x86 64.rpm 

wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-server-mysql-2.4.5-1.e16.x86 64.rpm 
wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-web-2.4.5-1.e16.noarch.rpm ` 

wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-web-mysql-2.4.5-1.e16.noarch.rpm 


使 用 yum 安 装 软件 包 。 


yum install -y epel-release-6-8.noarch.rpm 
yum install -y mysql-server zabbix-*.rpm 


步骤 2 ”Zabbix 数 据 库 配置 。 


启动 mysql-server 并 配置 开机 自 启动 。 


service mysqld start ; chkconfig mysqld on 


创建 mysqlDB 并 添加 授权 。 


mysql» CREATE DATABASE zabbix CHARACTER SET utf8 COLLATE utf8 bin; 

mysql» GRANT ALL ON zabbix.* TO zbuser8&'localhost' IDENTIFIED BY 'zbpass'; 
mysql» flush privileges; 

mysql» exit; 


导入 Zabbix DB, 


cd /usr/share/doc/zabbix-server-mysql-2.4.5/create/ 

mysql -u zbuser -pzbpass -h localhost zabbix < schema.sql 
mysql -u zbuser -pzbpass -h localhost zabbix < images.sql 
mysql -u zbuser -pzbpass -h localhost zabbix « data.sql 


步骤 3 配置 启动 Zabbix Server, 


需 修改 zabbix 配 置 文件 中 如 下 几 项 。 


vi /etc/zabbix/zabbix server.conf 
DBName-zabbix B 
DBUser-zbuser 

DBPassword-zbpass 
DBSocket-/var/lib/mysql/mysql.sock 


启动 Zabbix 服 务 。 


service zabbix-server start;chkconfig zabbix-server on 
service zabbix-agent start;chkconfig zabbix-agent on 


步骤 4 Zabbix Dashboard 初 始 化 。 


启动 apache 服 务 。 


service httpd start;chkconfig httpd on 


关闭 默认 iptables, 或 者 在 iptables 中 运行 访问 80 端 口 。 


service iptables stop or iptables -I INPUT -p tcp --dport 80 -j ACCEPT 


访问 http:///zabbix/setup.php， 按 提示 完成 初始 化 ， 如 图 12-1 所 示 ， 为 第 3 步 配置 数据 库 连 接 ， 并 确保 测试 通过 。 


E ZABBIX | 


3. Configure DB connection 


Please create database manually, and set the configuration parameters for connection t 
0 this database. 


Fress "Test connection" button when done. 
Database type MY5OL 1". 


Database host — "jahot |] 
Database port — 3306 |0 -use default port 
Database name zabbix 

User lbuser |] 
Password 


| Test connection | 


, Cancel | 


图 12-1 ”Zabbix 数 据 库 连接 设置 
其 他 配置 界面 均 可 保持 默认 。 如 图 12-2 所 示 ， 完 成 初始 化 。 


ZABBIX 


6. Install 


Configuration file 
" Jetc/zabbix/web/zabbix.conf.php* 
created: OK 


Congratulations on successful installation of Zabbix frontend. 


6. Install When done, press the "Finish" button 


图 12-2 ”Zabbix 初 始 化 完成 


访问 zabbix dashboard: http:///zabbix/dashboard.php, Zabbix 2.4.5 默 认 的 用 户 : Admin， 密 码 : zabbix。 


通过 上 面 4 步 ， 即 可 完成 最 基本 的 Zabbix Server 的 安装 ， 这 只 是 开始 ， 接 下 来 将 重点 介绍 Zabbix 的 使 用 方法 。 


最 佳 实践 66: Zabbix 利 器 Zatree 


对 于 使 用 过 Zabbix 的 读者 朋友 来 说 ， 对 它 在 图 形 展示 方面 ， 多 少 是 有 些 不 满意 的 ， 默 认 安 装 完 Zabbix， 并 没有 一 个 集中 的 直观 的 地 方 来 展示 所 有 主机 的 监控 图 形 ，Zabbix 2.4.5 也 没有 列 外 ， 官 方 并 没 


有 提供 树 形 菜单 形式 的 性 能 展示 功能 。 


Zatree 的 一 个 主要 功能 就 是 提供 了 一 个 直观 的 树 形 展示 页 面 ， 在 这 个 页 面 里 面 可 以 非常 方便 地 选择 要 查看 的 机 器 以 及 它 的 各 项 性 能 ，Zatree 项 目 经 历 了 很 长 一 段 时 间 的 发 展 ， 目 前 最 新 版 支持 Zabbix 
2.4.5， 功 能 上 增加 了 单 主机 监控 峰值 数据 报表 和 使 用 了 echart 图 形 显示 。 其 代码 托管 在 github 上 的 地 址 是 https://github.comy/spide4k/zatree。 


作者 在 github 上 已 经 把 如 何 安装 记录 得 非常 清楚 了 ， 按 照 步 骤 操 作 即 可 ， 图 12-3 所 示 是 安装 之 后 的 效果 。 通 过 右 侧 的 树 形 菜单 可 以 选择 需要 查看 的 服务 器 性 能 。 最 上 面 的 导航 栏 中 ，Peckvalue-Table 
为 单 主机 监控 峰值 数据 报表 ，Peckvalue-Echart 为 使 用 echart 画 的 图 形 。 


首页 HostGraph Peckvalue-Table Peckvalue-Echart 
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图 12-3 ”Zatree 效 果 展 示 


最 佳 实践 67: Zabbix Agent 自 动 注册 


使 用 Zabbix Agent 自 动 注册 功能 ， 可 以 将 一 台新 安装 Zabbix Agent 的 设备 ， 自 动 添加 到 任意 Host Groups 中 。 


步骤 1 创建 一 个 Host Group, 


在 Configuration->Host groups 菜 单 的 最 右 侧 ， 有 一 个 Create host group 按 钮 ， 点 击 即 可 。 


创建 名 为 Agent Auto Register 的 分 组 ， 
图 12-4 所 示 。 


旨 定 这 个 分 组 中 的 Hosts 只 能 使 用 Template ICMP Ping 和 Template OS Linux 两 个 系统 自 带 的 模板 ， 需 要 更 多 的 模板 可 以 从 右 侧 的 模板 列表 中 选择 添加 ， 如 


Group namel [agent Auto Register | 


图 12-4 添加 Host Group 


步骤 2 添加 自动 注册 操作 规则 。 


Other hosts | Group| Templates v 


Template App Telnet Service 
Template App Zabbix Agent 
Template App Zabbix Proxy 
Template App Zabbix Servar 
Template TIPMI Intel SR1530 
Template IPMI Intel 5R1630 
Template JMX Generic 
Template JMX Tomcat 
Template OS AIX 

Template OS FreeBSD 
Template OS HP-UX 
Template OS Mac OS X 
Template OS OpenBSD 
Template OS Solaris 
Template OS Windows 
Template SNMP Device 


在 Configuration->Actions 菜 单 的 最 右边 ， 有 一 个 下 拉 框 Event source， 选 择 Auto registration， 之 后 点 击 其 上 方 的 Create action 按 钮 。 


Action 配 置 标签 如 图 12-5 所 示 ， 配 置 Name， 其 余 保持 默认 。 


CONFIGURATION OF ACTIONS 


Nama [Register Linux Server | ster Linux Server | 
Default subject | Auto registration: {HOST.HOST} | 


Default message Host name: (HOST.HOST? 
| Host IP: [HOST.IF} 
Agent port: {HOST.PORAT} 


Enabed * 


| Add | Cancel | 


图 12-5 配置 Auto registration 规 则 名 称 


Conditions 配 置 标签 如 图 12-6 所 示 ，Host metadata 配 置 为 linuxserver， 意 思 是 当 客 户 端 上 来 注册 的 时 候 ， 匹 配 客户 端 配 置 文件 中 HostMetadata 的 赋值 ， 如 果 是 HostMetadata=linuxserver， 那 么 


就 触发 这 个 自动 注册 规则 。 


CONFIGURATION OF ACTIONS 


conditions | Label Name Action 


E Hast metadata like limuxserver | Remove j 


New condition |[ Het metadata E | like ni "| 


图 12-6 ”配置 condition 策 略 


Operations 配 置 标签 如 图 12-7 所 示 ， 添 加 了 两 个 触发 操作 内 容 ， 一 个 是 添加 主机 ， 另 一 个 是 将 主机 添加 到 Agent Auto Register 分 组 ， 第 三 是 应 用 哪些 模板 ， 在 选择 模板 的 时 候 ， 可 以 发 现 当 添 加 的 主 
机 组 是 上 面 步骤 中 添加 的 Agent Auto Register 时 ， 选 择 模 板 也 只 能 选择 之 前 添加 的 那 两 个 如 图 12-8 所 示 。 


CONFIGURATION OF ACTIONS 
Template Saai i 

(3 10.240.227.62/ ;3bbix/popup.php?srctii - templates&sr 

Group 


Operation detals operation tpe | Link to template € 


ee 


Link with templates 


Delete | 


图 12-7 配置 operation 策 略 配 置 


CONFIGURATION OF ACTIONS 


| Conditions 


Action operations — Details Action 
Add host Edit Remove 


Add to host groups: Agent Auto Register 


图 12-8 配置 operation 策 略 添加 应 用 模板 


步骤 3 安装 并 配置 客户 端 。 
这 步 操作 是 在 被 监控 的 客户 端 上 进行 的 ， 下 载 如 下 安装 包 : 


wget http://download.fedoraproject.org/pub/epel/6/x86 64/epel-release-6-8.noarch.rpm 

wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-2.4.5-1.e16.x86 64.rpm 

wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-agent-2.4.5-1.e16.x86 64.rpm 
wget http://repo.zabbix.com/zabbix/2.4/rhel/6/x86 64/zabbix-sender-2.4.5-1.e16.x86 64.rpm 


通过 yum 安 装 软件 包 : 


yum install -y epel-release-6-8.noarch.rpm 
yum install -y zabbix-*.rpm 


Oza 


安装 Zabbix Agent 的 时 候 ， 在 官网 安装 源 http://trepo.zabbix.comy/zabbix/ 中 选择 合适 的 版 本 ， 本 例 客户 端 安装 在 CentOS 6.064 位 系统 中 。 


修改 客户 端 配 置 文件 vim/etc/zabbix/zabbix_agentd.conf: 


PidFile-/var/run/zabbix/zabbix agentd.pid 
LogFile-/var/log/zabbix/zabbix agentd.log 
LogFileSize-0 

Server-10.240.227.62 ”// 指 定 zabbix server 地 址 
ServerActive-10.240.227.62 // 自 动 注册 的 服务 器 地 址 
Hostname-web-server-57 

HostMetadata-linuxserver // 自 动 注册 认证 关键 字 
Include-/etc/zabbix/zabbix agentd.d/ 


关闭 Zabbix Server 的 iptables 或 者 添加 允许 Zabbix Agenti] 10051 : 


iptables -I INPUT -s 10.240.227.57 -p tcp --dport 10051 -j ACCEPT 


关闭 Zabbix Agent 的 iptables 或 者 添加 允许 Zabbix Server 访 问 10050: 


iptables -I INPUT -s 10.240.227.62 -p tcp --dport 10050 -j ACCEPT 


启动 Zabbix Agent: service zabbix-agent start, 
观察 在 Zabbix Serverff)Configuration-» Hosts， 最 右 侧 group 选 择 Agent Auto Register， 会 看 到 如 图 12-9 所 示 的 主机 信息 。 


CONFIGURATION OF HOSTS | Create host || Import | 
Hosts 
Displaying 1 to 1 of 1 found 


Group Agent Auto Register Y 


| Name * Applications — Ttems Triggers Graphs Discovery Web Interface Templates Status Availability 


Template ICMP Ping, Template 
O web-server-57 Applications (11) Items (35) Triggers (18) Graphs (5) Discovery (2) Web (0) 10.240.227.57: 10050 OS Linux (Template App Enabled HEM 


Zabhix Agent] 


12-9 ”自动 注册 的 客户 端 信息 


至 此 Zabbix Agent 自 动 注册 的 功能 就 完成 了 ， 读 者 朋友 是 否 发 现 其 实 过 程 并 不 复杂 。 在 Zabbix Agent 量 大 的 时 候 ， 自 动 注册 会 非常 实用 。 


最 佳 实践 68: 基于 自动 发 现 的 KVM 虚 拟 机 性 能 


在 Zabbix 模 板 中 ， 包 含 以 下 几 项 配置 。 

: Applications: 监控 分 组 名 称 ， 比 如 CPU、Memory、Performance 等 ， 可 以 自 定义 。 
Items: 定义 监控 项 ， 比 如 监控 内 容 ， 监 控 频 率 、 历 史 保 留 时 间 、 和 触发 器 。 

“ Triggers: 和 触发 器 ， 针 对 每 个 监控 项 都 可 以 定义 一 个 或 多 个 触发 器 用 于 告警 

' Graphs: 定义 图 形 展示 的 项 。 

“ Screens: 定义 同时 展示 的 多 个 Graphs 项 。 

` Discovery: 自动 发 现 ， 这 项 是 本 节 重 点 介绍 的 内 容 ， 下 文 详 述 。 

- Web: 用 于 监控 某 个 Web 页 面 的 可 用 性 。 

- Linked templates: 引用 的 模板 。 


: Linked to: 被 哪些 模板 引用 。 


这 些 项 之 间 的 关系 ， 每 个 Items (监控 项 或 称 项 目 ) 可 以 属于 Applications (应 用 集 ) 也 可 以 不 属于 任何 Applications; 每 个 tems (监控 项 ) 可 以 定义 一 个 或 者 多 个 Triggers (触发 器 ) 用 于 配置 不 同 
等 级 的 告警 ; Graphs (图 形 ) 可 以 将 多 个 监控 项 在 一 个 图 上 展示 ; Screens (筛选 ) 用 于 筛选 显示 多 个 图 形 。 


在 监控 过 程 中 ， 对 于 一 些 确定 的 监控 项 ， 通 常情 况 下 在 ltems 里 添加 就 可 以 了 ， 那 么 对 于 不 确定 的 监控 项 呢 ? 比 如 网 卡 性 能 、 硬 盘 容 量 监控 。 因 为 对 于 一 台 服 务 器 ， 它 可 能 包含 2 个 网 卡 ， 也 可 能 4 个 ， 
那 用 什么 来 确定 是 几 个 呢 ? 自动 发 现 ， 通 过 自动 发 现 可 以 确定 服务 器 到 底 包 含 了 几 个 网 卡 ， 然 后 再 针对 包含 的 这 些 网 卡 做 各 项 性 能 的 监控 。 自 动 发 现 的 目的 是 为 了 处 理 一 些 不 确定 的 监控 对 象 ， 刚 才 列举 的 
网 卡 和 硬盘 的 自动 发 现 ，Zabbix 已 经 默认 做 好 了 ， 在 Configuration->Templates 中 的 Template OS Linux 模 板 中 。 


那么 对 于 不 确定 的 监控 项 ， 应 该 怎么 处 理 ， 这 就 是 本 节 的 重点 ， 自 动 发 现 功能 如 何 使 用 ? 


通过 一 个 实际 的 例子 来 说 明 会 比较 清楚 一 些 ， 比 如 现在 需要 监控 KVM 虚 拟 机 的 性 能 ， 对 于 虚拟 机 性 能 ， 主 要 由 它 的 CPU、 硬 盘 IO、 网 卡 等 组 成 ， 这 些 性 能 参数 都 可 以 通过 脚本 获取 。 那 么 哪里 需要 用 到 
自动 发 现 呢 ? 答案 是 虚拟 机 名 称 ， 因 为 不 确定 每 台 宿 主机 上 运行 着 哪些 虚拟 机 ， 所 以 就 需要 用 自动 发 现 来 确定 一 台 宿 主机 上 有 哪些 虚拟 机 ， 然 后 再 进一步 监控 这 台 虚 拟 机 的 CPU、 硬 盘 IO、 网 卡 性 能 。 以 下 
举例 详细 介绍 其 中 的 一 项 ， 虚 拟 机 网 卡 性 能 监控 。 


步骤 1 编写 用 于 自动 发 现 虚拟 机 的 脚本 。 


脚本 的 功能 是 为 自动 发 现 KVM 虚 拟 机 的 名 称 ， 它 的 输出 是 json 格 式 的 ， 在 Zabbix Server 中 执行 zabbix_get-s"zabbix-agent IP"-k"net.if.discovery"， 查 看 Zabbix 自 带 的 网 卡 发 现 它 的 返回 值 。 


[root(localhost ~]# zabbix get -s "10.240.227.57" -k "net.if.discovery" 
("data": [(" (&1FNAME) " : " Lo") , (" (&TFNAME) " : " eth0"] , (" (STENAME]":"eth1")]) 


整理 一 下 会 比较 清楚 。 


"data": [{ 
" [KIENAME] " :" 1o" 


t 
" (STENAME] " :"eth0" 
hi 
" (SITENAME] " : "eth1" 
H 


自动 发 现 ， 返 回 的 是 一 个 json 格 式 的 内 容 ， 键 名 : {#IFNAME}， 键 值 为 网 卡 名 称 。 编 写 的 自动 发 现 脚 本 的 输出 格式 可 以 参考 上 面 的 输出 格式 。 
对 于 本 例 ， 监 控 KVM 虚 拟 机 网 卡 性 能 ， 需 要 自动 发 现 以 下 这 些 项 的 对 应 关系 。 

虚拟 机 名 称 。 

“ 物理 的 网 桥 。 


“ 虚拟 网 卡 。 


笔者 用 Python 编写 了 一 个 自动 发 现 脚本 ， 通 过 以 下 github 地 址 可 以 获取 。 


git clone https://github.com/nameyj;j/Zabbix-discovery-kvm.git 


git clone 之 后 会 得 到 kvmDiscovery.py 和 kvmMonitoring.py 两 个 python 脚 本 。 


kvmDiscovery.py 脚 本 具有 三 个 功能 ， 通 过 不 同 的 参数 可 以 返回 三 种 数据 。 


第 一 ， 获 取 KVM 虚 拟 机 名 ， 执 行 python kvmDiscovery.py domain 获 得 所 有 虚拟 机 的 名 称 。 


"data": [{ 
"($DNAME)": "9f2464c8-9250-4d90-833f-0d79490b0761" 


ht 
i "{#DNAME}": "23a9d446-c024-4eb0-87bd-69a371bdabe6" 


H 


第 二 ， 获 取 KVM 虚 拟 机 物理 网 桥 与 虚拟 网 桥 的 对 应 关系 ,执行 python kvmDiscovery.py interface, 


python kvmDiscovery.py interface。 
{ 


"data": [| 
"(4DNAME)": "9f2464c8-9250-4d90-833f-0479490b0761", //HETUBL AS Wk 
"{#SDEV}": "bri", // 物 理 网 桥 对 应 键 值 {#SDEV} 

"{#TDEV}": "vnet2"// 虚 拟 机 网 卡 对 应 键 值 {#TDEV} 

}，{ ”// 如 下 虚拟 机 包含 两 块 网 卡 
" (4DNAME "23a9d446-c024-4eb0-87bd-69a371bdabe6", 

"{#SDEV}": "bro", 
"{#TDEV}": "vnetO" 

ht 
"(4DNAME)": "23a9d446-c024-4eb0-87bd-69a371bdabe6", 

"(SSDEV)": "bri", 
"(JTDEV)": "vnetl" 


H 


第 三 ， 获 取 KVM 虚 拟 机 硬盘 实际 路 径 与 虚拟 机 硬盘 名 称 的 对 应 关系 ， 执 行 python kvmDiscovery.py disk, 


"data": [{ 
" { #DNAME "9f2464c8-9250-4d90-833f-0d79490b0761"， ”// 虚 拟 机 名 
"(4SDEV)": "/dev/wmVG/d91ded29-84ca-43b2-ac97-ca7c66lee7d2"，// 磁 答 文 件 路 径 
"{#TDEV}": "vda" ”// 虚 拟 机 内 部 磁盘 名 称 

ht 

' "(4DNAME]": "9£2464c8-9250-4d90-833£-0d7949000761", 
"{#SDEV}": "/dev/vnNG/65ac2480-42£9-4422-9c8c-bd574570aa87" , 
"(4TDEV)": "vdb" 

ít 

' "(4DNAME]": "2339d446-c024-4eb0-87bd-69a371bdabe6", 
"{#SDEV}": "/dev/vmVG/bb0c69a8-5513-4d00-9c3£-555e4d564e3a", 
"(4TDEV)": "vda" 


a 


在 Zabbix Agent 配 置 文件 zabbix_agent.conf 中 可 以 定义 这 三 个 键 值 ， 用 于 获取 三 类 返回 值 。 


kvmMonitoring.py 脚 本 ， 可 以 通过 传 不 同 的 参数 以 获得 虚拟 机 CPU、 网 卡 、 硬 盘 的 性 能 。 


针对 虚拟 机 CPU 提供 了 cputime、systime、usertime、cpuinfo 这 4 个 具体 项 ， 用 法 如 下 : 


/opt/zabbix/agent/agent bin/kvmMonitoring.py cpu (cputime| systime| usertime| cpuinfo) $1 //$1 为 虚拟 机 名 称 


针对 虚拟 机 网 卡 ， 提 供 了 inTraffic (in 流量 ) 、outTraffic (out 流 量 ) 、inPackets (in 数据 包 发 包 率 ) . outPackets (out 数 据 包 发 包 率 ) 4 项 性 能 ， 用 法 如 下 : 


/opt/zabbix/agent/agent bin/kvmMonitoring.py interface (inTraffic| outTraffic | inPackets | outPackets ) $1 $2 // $1 为 虚拟 机 名 称 ，$2 为 虚拟 机 网 卡 名 


针对 虚拟 机 硬盘 ， 提 供 了 rd_req ( 读 |OPS) 、wr_req ( 写 IOPS) 、rd_bytes ( 读 吞吐 ) 、wr_bytes ( 写 吞吐 ) 4 项 性 能 监控 ， 用 法 如 下 : 


/opt/zabbix/agent/agent bin/kvmMonitoring.py disk {rd req| wr req | rd bytes | wr bytes } $1 $2  //S$1 为 虚拟 机 名 称 ，$2 为 虚拟 机 磁盘 名 称 


注意 


笔者 提供 的 监控 脚本 包含 了 CPU 性 能 、 硬 盘 IO 性 能 、 网 卡 性 能 的 监控 ， 读 者 朋友 可 以 根据 需要 定义 相应 的 键 值 。 


步骤 2 Zabbix Agent 端 配置 自动 发 现 键 值 。 


将 kvmDiscovery.py 和 kvmMonitoring.py 两 个 脚本 下 载 放 到 /opt/zabbix/agent/agent_bin/ 目 录 中 。 


在 Zabbix Agent 的 配置 文件 /etc/zabbix/zabbix_agentd.conf 中 ， 添 加 虚拟 机 网 卡 性 能 监控 需要 如 下 几 个 键 值 。 


UserParameter-vm.if.descovery, /usr/bin/python/opt/zabbix/agent/agent bin/kvmDis-covery.py interface // 键 值 vm.if.descovery 用 于 获取 虚拟 机 、 宿 主机 网 桥 、 虚 拟 机 网 卡 之 间 的 对 应 关 


系 


UserParameter-vm.if.inTraffic[*], /usr/bin/python/opt/zabbix/agent/agent bin/kvmMonitoring.py interface inTraffic$1$2 // 键 值 vm.if.inTraffic 表 示 接 口 入 方向 的 流量 状态 。 需 要 传 入 两 个 
参数 ,$1 为 虚拟 机 名 称 ，$2 为 虚拟 机 网 桥 名 称 


UserParameter=vm.if.outTraffic[*], /usr/bin/python/opt/zabbix/agent/agent bin/kvmMonitoring.py interface outTraffic$1$2 // 键 值 vm.if.outTraffic 表 示 接 口 出 方向 的 流量 状态 ， 需 要 传 入 
两 个 参数 ，$1 为 虚拟 机 名 称 ，$2 为 虚拟 机 网 桥 名 称 


UserParameterzvm.if.inPackets[*], /usr/bin/python/opt/zabbix/agent/agent bin/kvmMonitoring.py interface inPackets$1$2 // 键 值 vm.if.inPackets 表 示 接 口 入 方向 的 网 卡 发 包 率 ， 需 要 传 
入 两 个 参数 ，$1 为 虚拟 机 名 称 ，$2 为 虚拟 机 网 桥 名 称 


UserParameter-vm.if.outPackets[*], /usr/bin/python/opt/zabbix/agent/agent bin/kvmMonitoring.py interface outPackets$1$2 // 键 值 vm.if.outPackets 表 示 接 口 出 方向 的 网 卡 发 包 率 ， 需 
要 传 入 两 个 参数 ,$1 为 虚拟 机 名 称 ，$2 为 虚拟 机 网 桥 名 称 


Ora 
在 Zabbix 中 ， 自 定义 键 值 的 格式 是 以 UsetParameter= 键 值 名 、 脚 本 或 命令 ， 脚 本 和 命令 的 返回 值 将 直接 赋值 给 键 值 。 
步骤 3 Zabbix Server 页 面 上 配置 自动 发 现 策略 。 


在 Configuration->Templates 中 选择 需要 添加 Discovery 策 略 的 模板 ， 点 击 Discovery 按 钮 。 在 右上 方 点 击 Create discovery rule 按 钮 。 如 图 12-10 所 示 ， 创 建 Discovery rule， 定 义 名 字 为 VM 
Network interface discovery， 键 值 为 vm.if.descovery， 用 于 发 现 虚 拟 机 、 宿 主机 网 桥 、 虚 拟 机 网 卡 之 间 的 对 应 关系 。 


点 击 Add 按 钮 添加 完成 之 后 ， 可 以 在 Zabbix Server 端 使 用 zabbix_get 测 试 是 否 可 以 获取 vm.if.descovery 键 值 。 


[root@localhost ~]#zabbix get -s "192.168.106.222" -k "vm.if.descovery" 
("data": [{"{#DNAME}": "9f2464c8-9250-4890-833f-0479490b0761", "{#SDEV}": "brl", "{#TDEV}": "vnet2"), ("(4DNAME]": "23a9d446-c024-4eb0-87bd-69a371bdabe6", "(4SDEV)": "bro", "(4 


Name |VM Network interface discovery 


Type | Zabbix agent M 


| vm.if.descovery 


Update interval (in sec) |  30| 


Flexible intervals | Interval Period 


No flexible intervals defined. 


New flexible interval Interval (in sec)| 50| Period |1-7,00:00-24:00- 


Keep lost resources period (in days) |30 | 


Description | 自动 发 现 虚拟 机 名 ， 网 桥 ， 虚 拟 机 网 卡 的 对 应 关系 


Enabled 


12-10 ”创建 Discovery rule 


返回 值 中 包含 三 个 变量 供 DNAME}、 傈 SDEV}、 信 TDEV}， 这 三 个 变量 将 作为 参数 传递 给 监控 项 。 
步骤 4 ”在 自动 发 现 规则 中 添加 监控 项 。 
Discovery rule 规 则 新 建 完成 之 后 ， 需 要 为 这 个 规则 添加 监控 项 ltem prototypes, 


在 Discovery rule 规 则 页 面 ， 点 击 ltem prototypes 按 钮 ， 当 前 显示 VM Network interface discovery 策 略 中 的 ltem prototypes 规 则 是 空 的 ， 需 要 通过 右 侧 的 Create item prototypes 来 添加 监控 项 ， 


如 图 12-11 所 示 。 


Name 为 Incoming network packets on 人 #SDEV}， 注 意 供 SDEV} 是 一 个 参数 ， 它 是 vm.if.descovery 自 动 发 现 所 返回 的 数据 中 的 键 和 名 ， 表 示 这 台 虚 拟 机 对 应 的 物理 网 桥 名 称 ; key 为 
vm.if,inPackets[{#DNAME}， 全 TDEV]， 两 个 参数 协 DNAME} 和 人 {#TDEV} 分 别 表示 vm.if.descovery 自 动 发 现 所 返回 的 虚拟 机 名 和 虚拟 机 网 卡 名 称 。 在 Incoming network packets on{#SDEV} 这 个 ltem 的 
定义 中 ,将 其 DNAME} 和 人 {#TDEV)} 作 为 参数 传递 给 vm.if,inPackets， 来 获取 虚拟 机 在 进 方向 的 数据 发 包 率 。Store value: Delta (speed per second) 表示 取 1s 之 间 的 差 值 。 


参照 Incoming network packets on{#SDEV} 监 控 项 的 配置 方法 配置 其 他 三 个 监控 项 。 


Outgoing network packets on {#SDEV} key: vm.if.outPackets[{#DNAME}, {#TDEV}] 
Incoming network traffic on {#SDEV} key: vm.if.inTraffic[(4*DNAME), {#TDEV}] 
Outgoing network traffic on (4SDEV) key: vm.if.outTraffic[(*DNAME), {#TDEV}] 


Name | Incoming network packets on {#SDEV} | 


= 
Type | Zabbix agent | 


Key ||vm.if.inPackets[{#DNAME},{#TDEV}] | || Select 


Type of information | Numeric (unsigned) v | 


Data type | Decimal "| 


Units |pps 


Use custom multiplier D 


* * | — Zzz4 
Update interval (in sec) 60 


Flexible intervals | Interval Period Action 


No flexible intervals defined. 


New flexible interval Interval (in sec) 50| Period |1-7,00:00-24:00 Add 
History storage period (in days) 7 


Trend storage period (in days) 365 


Store value || Delta (speed per second) Y 


Show value i "| show value mappings 


New application | 


Applications 


Filesystems 

General 

ICMP 

| Memory < 


Description | SpE pandang 


图 12-11 配置 监控 项 监控 虚拟 机 进 方向 的 发 包 率 


在 配置 进出 方向 流量 时 需要 增加 一 个 计算 乘 8， 表 示 流 量 ， 如 图 12-12 所 示 。 


Use custom multiplier W | 


图 12-12 将 所 得 到 的 结果 来 8， 表 示 流 量 


步骤 5 在 自动 发 现 规则 中 添加 图 形 。 


定义 完 自动 发 现 策略 的 监控 项 之 后 ， 再 定义 图 形 Graph prototypes。 


在 Discovery rule 规 则 页 面 点 击 Graph prototypes 按 钮 ， 再 通过 最 右 侧 Create graph prototype 按 钮 添加 图 形 。 


S 


Name: (£DNAMEJNetwork packets on(fSDEV), {#DNAME) R TEMIR, (ISDEV)RZOSINIESTIRSSUET, ix ER 
network packets on{#SDEV} 和 Outgoing network packets on{#SDEV}， 如 图 12-13 所 示 。 


于 展示 网 卡 发 包 率 性 能 ， 所 以 在 ltems 里 面 添加 了 之 间 定 义 的 Incoming 


Name. (*DNAME] Network packets on (* SDEV 


wi&h | 900 
Height 200 
Graph type 

Shaw legend W 

Show working ime 9 

Show triggers * 
Percentile line (left) 
Percentile line (right) 
Y axis MIN value Fixed "110.0000 


Y axis MAX value _ Calculated Y 
Items 


v0c300  [H 


0000€ HN 


Update | Clone Cancel 
图 12-13 ”配置 网 卡 发 包 率 的 图 形 
最 终 的 效果 如 图 12-14 所 示 ， 展 示 了 虚拟 机 23a9d446-c024-4eb0-87bd-69a371bdabe6 桥 接 于 br0 上 的 网 卡 发 包 率 性 能 。 
compute-node-222: 23a9d446-c024-4ebO0-87bd-69a371bdabe6 Network packets on bro (1d) 
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Bl Incoming network packets on bro [avg] 2pps lpps 201 pps 
lll Outgoing network packets on br [avg] Opps Opps D pps 


图 12-14 虚拟 机 网 卡 发 包 率 的 图 形 


至 此 ， 基 于 自动 发 现 的 KVM 虚 拟 机 性 能 监控 就 介绍 完了 ， 本 节 只 是 教 大 家 一 个 方法 ， 大 家 可 以 根据 自己 的 实际 环境 来 监控 想 关注 的 项 。zabbix_get 是 一 个 非常 好 用 的 工具 ， 如 果 定 义 的 监控 项 没有 值 ， 
可 以 使 用 zabbix_get 测 试 ， 很 多 问题 就 可 以 定位 到 。 


本 章 小 结 


本 章 从 Zabbix 的 安装 到 自动 发 现 模板 定义 ， 旨 在 让 读者 朋友 能 快速 上 手 Zabbix 的 这 些 高 级 功能 ， 关 于 Zabbix 本 身 及 原理 并 没有 做 过 多 的 介绍 ，https://www-.zabbix.comV/documentation/2.4/ 官 方 文档 中 有 非 
常 详细 的 介绍 。 如 果 大 家 决定 使 用 Zabbix， 建 议 仔细 阅读 该 官方 文档 。 


第 13 章 ”服务 器 硬件 监控 


第 12 章 介绍 了 使 用 Zabbix 自 定义 模板 来 实现 业务 层面 的 监控 ， 本 章 将 介绍 更 下 层 的 监控 ， 从 服务 器 硬件 层面 ， 对 服务 器 进行 监控 ， 重 点 介绍 如 何 监控 服务 器 硬盘 的 状态 ， 如 何 针 对 已 经 普及 的 SSD 硬 盘 定 
制 监控 ， 最 后 还 将 介绍 服务 器 带 外 管理 与 告警 配置 。 


有 效 的 服务 器 硬件 监控 ， 对 服务 器 可 用 性 非常 重要 ， 以 笔者 多 年 的 运 维 经 验 来 看 ， 至 少 有 一 半 的 业务 中 断 与 硬件 有 关系 ， 这 部 分 故障 中 又 有 一 半 是 可 以 通过 监控 避免 的 。 本 章 的 目标 就 是 避免 这 部 分 硬 
件 故障 ， 提 前 预警 ， 及 时 处 理 ， 避 免 非 计划 中 的 重启 或 者 宕 机 。 


最 佳 实践 69: 服务 器 硬盘 监控 


BH 
AL 


重 构 过 程 对 其 他 


对 于 有 状态 的 业务 服务 器 ， 通 常 对 于 服务 器 硬盘 会 做 RAID， 目 前 常用 的 有 RAID10 和 RAID6， 性 能 上 RAID10 要 优 于 RAID6， 但 是 硬盘 容量 损失 较 大 。RAID5 现 在 使 用 的 越 来 越 少 。 
会 造成 较 大 压力 ， 且 此 时 如 果 再 有 硬盘 发 生 故 障 ， 数 据 将 全 部 丢失 。 下 面 就 对 这 3 种 RAID 的 优 缺 点 做 简单 介绍 


RAID10: 细 分 为 普通 的 RAID10 与 RAID10 (ADM) ，ADM 的 全 称 是 Advanced Data Mirroring, RAID (ADM) 副本 总 数 比 RAID10 多 一 份 ， 所 有 RAID 级 别 中 RAID10 (ADM) 性 能 最 佳 ，RAID10 其 
次 。 容 错 性 RAID10 (ADM) 也 是 最 好 的 ，RAID10 其 次 ,缺点 是 RAID10 (ADM) 容量 损失 2/3。 


RAID6: 安全 性 较 高 ， 最 多 允许 坏 两 块 硬盘 。 缺 点 是 并 非 所 有 RAID 卡 都 支持 ，RAID6 写 入 性 能 比 RAID5 差 。 


RAID5: 容量 损失 最 小 ， 读 取 性 能 较 高 。 缺 点 是 最 多 仅 允 许 坏 一 块 盘 ， 如 果 在 第 一 个 故障 硬盘 重 构 过 程 中 出 现 第 二 块 硬盘 故障 ， 数 据 会 丢失 ，RAID5 写 入 性 能 较 低 。 


通常 情况 下 ， 使 用 哪 种 RAID 级 别 ， 取 决 于 业务 需要 ， 读 者 朋友 可 以 根据 上 述 RAID 级 别 的 优 缺 点 自行 选择 。 在 条 件 允许 的 情况 下 ， 推 荐 使 用 RAID10。 


因为 服务 器 硬盘 一 般 都 做 了 RAID， 所 以 在 系统 里 面 查看 磁盘 的 时 候 ， 只 能 看 到 逻辑 磁盘 ， 比 如 had、hdb、sda、sdb 等 ， 需 要 再 深入 地 查看 物理 硬盘 的 状态 信息 就 必须 透 过 RAID， 不 过 还 好 ， 目 前 3 
流 的 RAID 卡 厂商 都 提供 了 对 应 的 工具 ， 比 如 HP 的 RAID 卡 工具 hpacucli 或 者 hpssacli、LSI MegaRAID 的 RAID 卡 工具 MegaCli。 


Oza 


hpacucli 与 hpssacli 都 是 HP RAID 自 带 的 RAID 卡 命令 行 工具 ， 区 别 在 于 在 hpssacli 支 持 新 版 本 RAID 卡 ， 在 较 老 的 HP 服务 器 中 ， 仅 支持 hpacucli， 命 令 格式 参数 基本 相同 。 


HP 的 RAID 卡 使 用 hpacucli ctrl slot=0 pd all show status 查 看 硬盘 状态 ， 输 出 如 下 : 


[root(localhost ~]#hpacucli ctrl slot-0 pd all show status 
physicaldrive 11:1:1 (port lI:box 1:bay 1, 600 GB): OK 
physicaldrive 11:1:2 (port lI:box 1:bay 2, 600 GB): 
physicaldrive 11:1:3 (port lI:box 1:bay 3, 600 GB): OK 
physicaldrive 11:1:4 (port lI:box 1:bay 4, 600 GB): 


从 命令 输出 的 结果 来 看 ， 此 服务 器 有 4 块 硬盘 ， 且 状态 都 是 OK， 如 果 有 硬盘 出 现 问题 时 ， 状 态 会 出 现 Failed。 


LSI MegaRAID 的 RAID 卡 ， 使 用 /bin/MegaCli64-PdGetMissing-aALL 查 看 RAID 组 中 是 否 有 硬盘 损坏 。 输 出 如 下 : 


[root@gcloud-wgq-taobao-112 ~]# /bin/MegaCli64 -PdGetMissing -aALL 
Adapter 0 - Missing Physical drives 
No. Array Row Size Expected  // 表 示 丢 失 一 块 146G 的 硬盘 ， 可 能 是 损坏 或 被 拔 出 
0 0 3 139236 MB 

Exit Code: 0x00 


使 用 /bin/MegaCli64-PDList-aALL 查 看 所 有 硬盘 状态 : 


[root@ localhost ~]# /bin/MegaCli64 -PDList -aALL 

Adapter 40 //RAID 卡 编号 

Enclosure Device ID: 252  // 设 备 ID 

Slot Number: O ”// 硬 盘 权 位 

http://www.hzcourse. com/resource/readBook?path=/openresources/teach « ebook/uncompressed/15829/OEBPS/Text/... 
Media Error Count: 0  // 扇 区 错误 数量 

Other Error Count: 0 nme R 比如 : 硬盘 松动 ，iscsi 连 接 错 误 

Predictive Failure Count: 0 // 预 测 的 磁盘 坏 块 数量 

http://www.hzcourse. Sap E Oe ee ebook/uncompressed/15829/OEBPS/Text/... 
Firmware state: Online, Spun Up // 磁 盘 状 态 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 


以 上 命令 将 输出 所 有 磁盘 的 详细 信息 ， 重 点 关注 Slot Number， 硬 盘 槽 位 ， 从 0 开始 定位 硬盘 的 位 置 ， 非 常 重要 ; Media Error Count 表 示 错 误 扇 区 数 、Predictive Failure Count 表 示 预 测 磁 盘 坏 块 ， 
这 两 项 有 值 ， 说 明 硬 盘 即 将 坏 或 没 坏 ， 通 常 这 种 情况 下 ， 从 服务 器 外 观看 不 到 硬盘 亮 红 灯 。Firmware state 硬 盘 状 态 ， 正 常 是 Online， 如 果 坏 了 会 是 Failed， 重 构 时 为 Rebuild。 


通过 编写 脚本 直接 调用 hpacucli，MegaCli64 可 以 比较 方便 地 实现 服务 器 硬盘 状态 的 监控 和 报警 ， 以 上 列举 的 这 些 关键 项 都 可 以 作为 判断 的 条 件 。 具 体 脚本 ， 使 用 shell 非 常 简单 ， 笔 者 就 不 再 提供 了 。 


最 佳 实践 70: SSD 定 制 监控 


SSD 优 势 与 内 部 结构 


SSD (Solid State Drives) 固态 硬盘 ， 相 比 于 传统 的 机 械 硬盘 ， 它 具有 非常 出 色 的 性 能 ， 且 故障 率 、 功 耗 也 远 低 于 机 械 硬盘 。 


相 比 于 传统 的 机 械 硬 盘 ，SSD 硬 盘 没有 磁盘 、 磁 头 、 磁 头 臂 、 马 达 、 永 磁铁 等 ， 这 些 烦 琐 的 机 械 部 件 ， 取 而 代 之 的 是 芯片 ，SSD 包 含 三 块 主要 的 芯片 ， 分 别 是 内 存 芯 片 、 主 控 芯 片 、 缓 存 攻 片 
-内存 芯片 : 它 由 NAND Flash (一 种 非 易 失 性 闪存 ) AA, NAND Flash 的 制作 工艺 直接 决定 SSD 硬 盘 的 性 能 、 寿 命 以 及 价格 。 
EGR: 它 其 实 是 一 颗 CPU， 它 的 运算 能 力 由 制造 工艺 、 核 数 数量 、 频 率 来 决定 。 主 控 芯 片 的 运算 能 力 ， 很 大 程度 上 决定 了 SSD 的 性 能 。 


“ 缓存 芯片 : 它 并 不 是 所 有 SSD 硬 瘟 都 包含 的 ， 一 般 相 对 高 端的 SSD 型 号 才 有 ， 它 的 功能 与 CPU 缓存 、RAID 卡 缓存 作用 相似 ， 都 是 为 了 提高 性 能 而 配置 的 。 


针对 NAND Flash 这 部 分 ， 因 为 它 对 SSD 硬 盘 的 性 能 、 寿 命 和 价格 有 直接 影响 ， 本 节 适 当 展 开 一 下 ， 希 望 对 读者 朋友 选 购 SSD 硬 盘 的 时 候 有 所 帮助 


SSD 选 型 


目前 闪存 的 类 型 主要 有 3 种 ，SLC (Single-Level Cell) 、MLC (Multi-Level Cell) 和 TLC (Triple-Level Cell) 。 


SLC 又 名 单 层 式 存 储 单元 ， 它 的 最 大 优势 是 寿命 长 ， 原 理 上 SLC 架构 是 0 和 1 两 个 充电 值 ， 所 以 每 个 Cell 只 能 存放 1bit 激 据 ， 架 构 最 简单 ， 任 何 一 个 Cell 故 障 ， 对 整体 性 能 几乎 没有 影响 ， 同 时 SLC 也 是 最 
省 电 的 。 但 是 ，SLC 的 价格 也 是 最 高 的 ， 产 品 定位 属于 SSD 硬 盘 中 的 高 端 系列 ， 一 般 只 在 企业 级 中 使 用 。 


MLC 又 名 多 层 式 存储 ， 原 理 上 它 通 过 不 同 的 电压 在 一 个 单元 中 记录 两 组 信息 (00、01、10、11) ， 这 样 它 能 存储 2bit 的 数据 ， 相 比 SLC， 理 论 上 存储 容量 可 以 大 一 倍 ， 由 于 电压 变化 频繁 ，MLC 的 寿命 
没有 SLC 长 。 但 是 它 有 一 个 比价 大 的 优势 ， 价 格 比 SLC 低 很 多 ， 在 平衡 了 容量 、 性 能 、 寿 命 等 参数 之 后 ，MLC 还 是 深 得 企业 欢迎 的 。 


TLC 是 MLC 的 延伸 ， 它 可 以 在 一 个 Cell 上 存储 3bit 数 据 ， 所 以 价格 上 比 MLC 更 便宜 ， 但 是 由 于 它 的 电压 变换 更 频繁 ， 寿 命 也 是 最 短 的 。 不 过 随 着 制造 工艺 的 发 展 ，TLC 的 使 用 寿命 也 在 提升 ， 通 常 来 说 ， 
如 果 个 人 使 用 的 话 ，MLC 是 非常 好 的 选择 ， 性 价 比 最 高 。 某 些 非 核心 的 企业 应 用 也 可 以 选择 使 用 TLC。 


随 着 SSD 的 使 用 越 来 越 多 ， 针 对 SSD 硬 盘 的 监控 ， 也 需要 同步 跟 上 ， 本 节 就 来 重点 介绍 SSD 定 制 监控 。 


SSD 应 用 场景 及 定制 监控 


SSD 硬 盘 的 服务 器 上 的 应 用 场景 主要 分 两 类 。 


第 一 ， 直 接 使 用 ， 不 通过 RAID 卡 ， 这 种 场景 实际 中 比较 少 ， 因 为 一 般 情况 下 在 购买 服务 器 时 都 配置 了 硬件 的 RAID 卡 。 


第 二 ， 通 过 RAID 卡 ， 这 种 场景 操作 上 和 普通 SAS 或 者 SATA 盘 一 样 ， 先 做 RAID10， 或 者 RAID6 再 使 用 ， 这 种 场景 比较 多 。 


在 Linux 系 统 中 ， 有 一 个 smartmontools 工 具 包 ， 其 中 包含 两 个 程序 (smartctl 和 smartd) ， 通 过 获取 SMART (Self-Monitoring Analysis and Reporting Technology System， 自 检 分 析 日 志 系 统 ) 
信息 来 监控 服务 器 上 存储 设备 的 状态 。smartctl 是 命令 形式 的 检测 ， 可 以 通过 脚本 直接 调用 ，smartd 是 一 个 守护 程序 ， 可 以 直接 把 服务 器 存储 设备 的 状态 信息 输出 到 系统 的 log 中 。 


场景 一 : 在 实际 的 应 用 的 比较 少 ， 一 般 服务 器 都 会 配置 RAID 卡 ， 在 家 用 PC 中 ， 基 本 上 都 是 场景 一 的 形式 用 的 SSD， 将 硬盘 直接 连接 在 主板 的 接口 上 ， 使 用 如 下 命令 可 以 查看 SSD 硬 盘 的 详细 信息 。 


smartctl -a /dev/sda 


Oza 


只 有 不 透 过 RAID 卡 连接 的 SSD， 使 用 以 上 命令 ， 可 以 获取 详细 的 硬盘 信息 。 


在 常用 的 场景 二 中 ，SSD 硬 盘 ， 先 连接 到 RAID 卡 上 ， 然 后 通过 RAID 卡 创建 逻辑 磁盘 ， 此 时 在 系统 里 面 看 到 的 sda、sdb 都 是 逻辑 盘 ， 如 果 要 查看 实际 的 硬盘 信息 ， 需 要 再 通过 RAID 卡 的 管理 工具 来 实 
砚 。 目 前 主流 的 RAID 卡 ， 包 括 Hewlett-Packard Company Smart Array 和 LSI Logic/Symbios Logic MegaRAID SAS 两 大 类 。 这 两 个 RAID 卡 ， 厂 商都 提供 了 对 应 的 命令 行 工具 ， 工 具 在 上 一 节 中 有 介绍 
过 ， 分 别 是 hpacucli 或 者 hpssacli 和 MegaCli， 通 过 git clone 可 以 获取 安装 程序 。 


wH 
Im 


git clone https://github.com/nameyj;j/SSDMonitor.git 


SSD 硬 盘 将 数据 存储 在 闪存 颗粒 上 ， 闪 存 颗 粒 是 有 擦 写 次 数 限制 的 ， 目 前 主要 还 是 受 限于 制造 工艺 。SSD 硬 盘 的 使 用 寿命 ， 可 以 用 以 下 公式 来 计算 ， 如 图 13-1 所 示 。 


实际 容量 ( GB ) xP 正 次 数 


X A (CORR ) x 365 X: 


图 13-1 SSD 寿命 计算 公式 


P/E 次 数 : 指 SSD 闪 存 的 P/E (编程 / 擦 除 ) 循环 ， 不 同 的 闪存 类 型 差别 很 大 ， 比 如 目前 SLC 可 以 达到 5 万 到 10 万 次 循环 ，MLC 在 3000 到 5000 次 左右 ，TLC 最 少 ， 只 有 1000 次 左右 循环 。 


实际 写 入 : 这 个 值 指 写 入 文件 大 小 * 写 放大 率 。 写 放大 率 是 SSD 硬 盘 上 实际 写 文件 的 大 小 与 写 入 文件 的 大 小 的 一 个 比例 ， 简 单 举 个 例子 ， 有 一 个 1GB 的 文件 需要 写 入 SSD 盘 ， 那 么 SSD 盘 在 得 到 这 个 请 求 


之 后 ， 会 先 看 当前 没 被 写 过 的 闪存 块 够 不 够 ， 如 果 够 ， 那 么 直接 写 入 闪存 块 就 结束 了 ， 这 种 情况 下 ，SSD 盘 实际 写 到 闪存 上 的 数据 也 是 1GB， 写 放大 率 就 是 1， 这 种 情况 只 在 一 块 新 的 SSD 从 未 被 写 满 过 的 情 
况 下 才 会 发 生 ， 大 部 分 情况 是 ，SSD 盘 得 到 这 个 写 入 请 求 ， 查 看 当前 闪存 块 ， 发 现 没有 全 新 的 块 可 以 直接 写 ， 需 要 将 老 的 块 先 做 清理 ， 之 后 才能 写 入 ， 清 理 操作 包括 擦 除 和 迁移 数据 两 种 ， 这 种 都 会 增加 
SSD 盘 的 实际 写 入 数据 量 ， 简 单 地 说 ， 要 写 入 1GB 数 据 ，SSD 盘 上 实际 可 能 有 1.3GB 的 数据 写 操作 ，0.3GB 写 操作 是 由 擦 除 和 迁移 产生 的 ， 此 处 的 写 放 大 率 就 是 1.3GB/1GB=1.3， 这 个 系数 与 主 控 芯 片 有 关 
系 。 


一 块 600GB 的 MLC 的 SSD，P/E 次 数 为 3000 次 ， 


每 天 实际 写 入 100GB 的 情况 下 ， 寿 命 为 600*3000/ (100*365) =49 年 ， 


每 天 实际 写 入 600GB 的 情况 下 ， 寿 命 为 8.3 年 ， 


每 天 实际 写 入 1200GB 的 情况 下 ， 寿 命 为 4.1 年 。 


每 天 写 入 600GB 相 当 于 每 天 把 这 块 SSD 都 写 一 遍 ， 大 部 分 应 用 都 不 会 有 这 么 大 写 入 量 的 ， 所 以 大 部 分 情况 下 ， 使 用 寿命 要 大 于 8.3 年 。 


大 家 可 能 会 有 这 么 一 个 疑问 ，SSD 硬 盘 使 用 寿命 如 果 到 了 会 怎么 样 ? 


就 出 现 了 ，SSD 盘 将 变 成 只 读 (Readonly) 状态 ， 对 于 大 部 分 应 用 来 说， 都 会 出 问 


E] 


在 SSD 硬 盘 的 设备 信息 里 面 都 会 有 一 项 关于 使 用 寿命 的 记录 ， 使 用 百分比 表示 ， 当 这 个 值 变 成 0% 的 时 候 ， 那 么 问 是 
题 。 所 以 一 般 情况 下 ， 发 现 SSD 硬 盘 的 使 用 寿命 小 于 10% 时 ， 就 应 该 开始 准备 更 换 硬盘 ， 或 者 迁移 业务 了 。 


介绍 了 上 面 这 些 SSD 硬 盘 使 用 寿命 的 内 容 之 后 ， 接 下 来 ， 就 具体 地 告诉 大 家 ， 如 何 监控 SSD 硬 盘 使 用 寿命 。 笔 者 已 经 针对 Hewlett-Packard Company Smart Array 和 LSI Logic/Symbios Logic 
MegaRAID SAS RAID 卡 编写 了 两 个 脚本 ， 可 以 直接 获取 SSD 硬 盘 的 寿命 ， 通 过 如 下 地 址 可 以 下 载 ， 名 为 SsdUsageRemainingCheckHP.sh 和 SsdUsageRemainingCheckMegaRAlD.sh。 


git clone https://github.com/nameyj;j/SSDMonitor.git 


说 明 一 下 脚本 的 实现 逻辑 和 原理 。 


获取 Hewlett-Packard Company Smart Array RAID 卡 中 SSD 硬 盘 剩 余 使 用 寿命 百分比 脚本 的 步骤 如 下 。 


DRI ”检查 系统 中 是 否 安装 hpssacl 或 者 hpacucli 命 令 行 工具 。 


步骤 2 ”获取 硬盘 物理 地 址 信息 。 


#/usr/sbin/hpssacli controller all show detail config |grep physicaldrive|awk '{print $2)'|sort|uniq 
:1:l 


步骤 3 ”判断 物理 硬盘 是 否 是 SSD 硬 盘 ， 得 到 1 表示 该 硬盘 是 SSD 硬 盘 。 


#hpssacli ctrl slot-0 pd 21:1:16 show detail|grep -i "Solid State SATA"|wc -1 
Kl 


步骤 4 ”筛选 SSD 硬 盘 寿 命 关键 字 ， 获 取 SSD 硬 盘 使 用 寿命 百分比 数据 。 


#hpssacli ctrl slot-0 pd 21:1:16 show detail|grep -i "Usage remaining" 


Usage remaining: 99.70% 


直接 执行 ssdUsageRemainingCheckHP.sh 得 到 如 下 输出 ，physicaldrive 是 指 物理 的 槽 位 ，Usage remaining 就 是 SSD 硬 盘 的 使 


寿命 剩余 百分比 。 


[root@localhost ~]# ./SsdUsageRemainingCheckHP.sh 

physicaldrive 21:1:16 Usage remaining: 99.70% 
physicaldrive 21:1:17 
physicaldrive 21:1:18 
physicaldrive 21:1:19 


Usage remaining: 99.70% 
Usage remaining: 99.70% 
Usage remaining: 99.70% 


获取 LSI Logic/Symbios Logic MegaRAID SAS RAID 卡 中 SSD 硬 盘 剩 余 使 有 


步骤 1 检查 系统 中 是 否 安装 Megacli64 和 smartctl 命 令 行 工具 。 

步骤 2 ”获取 硬盘 模 位 、 硬 盘 类 型 、 设 备 1D 信 息 。 

步骤 3 ”判断 硬盘 是 否 为 SSD 硬 盘 。 

步骤 4 ”筛选 55D 硬 盘 剩 余 寿命 百分比 关键 字 ，098 表 示 剩 余 98% 的 寿命 。 


寿命 百分比 脚本 的 步骤 如 下 。 


[root@localhost ~]#smartctl -a -d sat+megaraid,16 /dev/sdalgrep "Media Wearout Indicator"|awk '(print $5}' 
098 


//16 是 Device ID 


直接 执行 脚本 ssdUsageRemainingCheckMegaRAID.sh， 得 到 如 下 信息 ， 包 括 SSD 硬 盘 槽 位 和 剩余 寿命 百分比 。 


[root(localhost ~]# ./SsdUsageRemainingCheckMegaRAID.sh 
Slot Number: 6 usage remaining: 098% 
Slot Number: 7 usage remaining: 098$ 


通过 脚本 得 到 SSD 硬 盘 剩 余 使 用 寿命 百分比 之 后 ， 可 以 利用 它 的 输出 接口 ， 结 合 Zabbix 或 者 直接 通过 脚本 实现 ， 当 值 小 于 10% 时 告警 。 


最 佳 实践 71 : 服务 器 带 外 监控 : 带 外 邮件 警告 


当下 几乎 所 有 的 服务 器 厂商 ， 都 提供 了 各 种 的 带 外 管理 ， 各 家 厂商 为 带 外 取 了 自己 的 名 字 ， 比 如 Dell 的 叫 jDRAC、HP 的 叫 LO、 华 为 的 叫 iMana。 


先 介绍 一 下 ， 什 么 是 带 外 管理 ， 通 常 它 是 接 在 服务 器 主板 上 的 一 块 芯片 ， 通 过 这 块 芯 


建 RAID、 安 装 操作 系统 、 查 看 当前 系统 运行 状态 等 。 
带 外 管理 本 身 可 以 采集 到 详细 的 硬件 信息 ， 


本 节 将 介绍 如 何 配置 服务 器 带 外 邮件 告警 。 重 点 列举 HP iLO 和 Dell iDRAC 配 


同时 还 提供 邮件 告警 的 配置 ， 所 以 通过 带 外 监控 服务 器 状态 ， 在 服务 器 硬件 监控 中 也 是 非常 实 


， 其 他 厂商 的 配置 和 它们 都 差不多 。 


带 外 管理 本 身 需要 配置 一 个 IP 地 址 ， 管 理 员 通 过 浏览 器 连接 带 外 管理 的 页 面 


的 服务 器 作为 邮件 代理 来 完成 这 个 功能 。 


完成 所 有 的 操作 。 
线 上 环境 服务 器 ， 配 置 的 带 外 管理 IP 都 是 内 网 地 址 。 这 个 给 配置 邮件 告警 带 来 了 一 点 点 麻烦 ， 告 警 邮件 需要 发 送 到 外 网 的 邮件 服务 器 上 ， 但 是 带 外 管理 网 络 又 不 通 外 网 ， 所 以 需要 


， 管 理 员 可 以 在 不 依赖 于 操作 系统 的 情况 下 ， 在 它 提 供 的 Web 界 面 中 完成 一 些 最 底层 的 操作 ， 比 如 BIOS 设 置 、 创 


为 通过 带 外 可 以 做 最 底 


Postfix 是 一 种 电子 邮件 服务 器 ，F 
的 服务 器 带 外 配置 的 IP 能 与 Postfix 服 务 器 互通 ， 再 按 以 下 步骤 配置 。 


步骤 1 yum-y install postfix， 安 装 Postfix。 


步骤 2 ”编辑 /etc/postfix/main.cf 配 置 文件 ， 仅 需 更 改 如 下 配置 项 : 


mydomain = smtp.xx // 这 个 可 以 写 公司 的 域名 ， 如 果 没 有 可 以 随便 写 
myhostname = postfix.smtp.xx // 邮 件 主机 名 
inet interfaces = all 


mydestination = $myhostname, localhost.$mydomain, localhost,10.0.0.0/8 


relay domains = $mydestination 
mynetworks = 127.0.0.1/32, 10.0.0.0/8 , hash:/etc/postfix/access 
strict rfc821 envelopes = no // 邮 件 格 式 是否 严 格 遵循 RFC 规 范 ，no 表 示 宽 松 


屋 的 操作 ， 包 括 直接 关机 、 重 装 系统 ， 它 的 安全 性 就 非常 重要 ， 所 以 几乎 所 有 的 
一 台 既 有 内 网 也 有 外 网 


它 来 做 邮件 代理 配置 比较 简单 ， 首 先 需要 一 台 有 公 网 IP 和 内 网 IP 的 机 器 ， 最 低 配 置 的 CentOS 6.5 系 统 服务 器 即 可 ，Postfix 服 务 器 内 网 |P: 10.168.107.180， 保 证 所 有 


步骤 3 postfix check 检 查 配置 文件 ，service postfix start 启 动 Postfix 服 务 。 


步骤 4 ”配置 /etc/postfix/access， 添 加 需要 转发 的 IP 段 ， 例 如 添加 10 段 IP 转 发 ， 则 添加 : 


10. OK 


步骤 5 更 新 access.db， 刷 新 配置 ， 并 发 送 测 斌 邮件， 日 志 在 /var/log/maillog 文 件 中 : 


[root@postfix ~]#postmap hash:/etc/postfix/access 

[root@postfix ~]#service postfix reload 

[root@postfix ~]#echo 'hello,postfix user !'|mail -v -r root8postfix.smtp.xx -s 'Hi,this is test mail' 2280143374@qq.com 
«--! echo EX -r ĦA , -s 邮件 标题 -v 显示 详细 信息 ， 最 后 为 接收 的 e-mail 地 址 !--> 


步骤 6 ”Postfix 配 置 完成 ， 此 时 会 收 到 测试 邮件 则 Postfix 配 置 成 功 。 


Postfix 配 置 完 成 之 后 ， 下 面 列举 如 何在 HP iLO 和 Dell iDRAC 上 配置 邮件 告警 。HP iLO 邮 件 告警 配置 ， 在 iLO->Administration->Management 标 签 下 ， 如 图 13-2 所 示 配 置信 息 。 


AlertMail Settings 


MA Enable iLO AieriMail 
Emal Address "€-———Á 26000 | 
Sender Domain smtp.xx 
SMTP Port 
SMTP Server 190.168.197.180 


Send Test AfertMal 


图 13-2 ”HPiLO 邮 件 告警 配置 
Email Address 配 置 收 告警 的 邮件 地 址 。 


Sender Domain 发 信者 域名 ， 此 处 填 之 前 Postfix 配 置 中 的 mydomain 参 数 。 


SMTP Port 默 认 的 SMTP 都 是 25 端 口 ，Postfix 默 认 的 SMTP 也 是 25 端 口 。 


SMTP Server 配 置 之 前 配置 的 Postfix 服 务 器 中 的 内 网 |P 地 址 10.168.107.180。 


配置 完成 ， 先 Apply 保 存 一 下 ， 再 点 击 Send Test AlertMail 发 送 测试 邮件 ， 将 收 到 如 图 13-3 所 示 的 测试 邮件 。 


HP iLO AlertMail-004: INFOJ AlertMail Test Message 
Seek A, C ILO ILOGCUAZGF7LA «ILOGCUA28F714. Gosmtpoxc |+ 


上 on 


2016502 H16E 19:51 (FH) 


m pusm]seremema.dBAETHRTIBERNERTRSE NR 


[的 BHEnjCRGT 


EVENT [168 Feb 19:42): AlerrtMail Test Message 


Ihe receipt of this message confirms that AlertMail is configured carrectiy on this iL0 


iLO TP: hrtps://10. 105. am 
ilO Nama: ILOGCUAZGFT7LA 
| DL380 cenā, P71 07/01/2015 
Server UUID: 3750804;-4131-13386-5534-32386463741034 


PLEASE D NOT REPLY TO THIS EMAIL. For more details about HP ProLiant iLỌ technology; wisi 


图 13-3 ”测试 邮件 内 容 


在 告警 邮件 中 包括 基础 信息 比如 iLO 地 址 、 机 器 型 号 ， 当 硬件 出 问题 时 ， 会 包含 信息 的 告警 信息 。 
注意 
Email Address 中 填 的 邮件 箱 ， 不 同 的 邮箱 提供 商 效 果 略 有 不 同 。 
QQ 邮件 不 能 使 用 ， 因 为 江 LO 的 发 件 人 为 LO Hostname.@smtp.xx， 例 如 ILO6CU426 F7XX.@postfix.smtp.xx， 在 @ 之 前 多 了 一 个 点 ， 发 送 的 时 候 报错 如 下 : 


Feb 1618: 57: 04 localhost postfix/smtp[15434]: BFE3C23DC8: to=<2280143374@qq.com>, relay=mx3.qq.com[183.57.48.35]: 


25, delay=0.35, delays=0.06/0.01/0.24/0.04, dsn=5.0.0, status=bounced (host mx3.qq.com[183.57.48.35]said: 501 Syntax: MAIL FROM: <address> (in reply to MAIL FROM command) ) 。 
126 邮 箱 会 有 一 个 延迟 等 待 时 间 ， 一 般 在 15min 之 内 会 发 送 ， 信 息 如 下 : 


Feb 1619: 43: 59 localhost postfix/smtp[15585]: 048F823DC8: to=<yangjun5202006@126.com>, relay=126mx01.mxmail.netease.com[220.181.15.131]: 
25, delay-6.9, delays-0.06/0.01/6.8/0.04, dsn—4.0.0, status-deferred (host 126mx01.mxmail.netease.com[220.181.15.131]said: 451 DT: SPM 126 mx25, K8mowACHQOSAC8NWNGCUAQ-- 
.87821455623040, please try again 15min later (in reply to end of DATA command) ) 。 


所 以 如 果 有 自己 公司 邮件 的 话 ， 将 告警 邮件 发 送 到 公司 邮箱 ， 其 中 的 规则 都 可 以 定义 。 


Dell iDRAC 告 警 邮件 配置 在 概览 一 iDRAC 一 网 络 中 配置 IDRAC 发 件 人 信息 ， 如 图 13-4 所 示 。 
Ett 
向 DNS 注册 DRAC 


DNS DRAC fr 
自动 配置 域名 
B DNS 域名 


图 13-4 Dell iDRAC 配 置 发 件 人 及 域名 信息 


DNS DRAC 名 称 ， 就 是 发 件 人 邮件 ， 这 里 可 以 自 定义 ， 静 态 DNS 域 名 ， 配 置 为 之 前 Postfix 中 定义 的 mydomain 参 数 内容 。 


在 概览 一 服务 器 一 警报 一 SNMP 和 电子 邮件 设置 便签 下 配置 ， 如 图 13-5 和 图 13-6 所 示 。 


目标 电子 邮件 地 址 
电子 邮件 警报 号 码 状态 目标 电子 邮件 地 址 


EFESE 1 Ii 12280143374(9qq.com 


图 13-5 DelliDRAC 配 置 收 件 人 


iDRAC 支 持 填写 多 个 告警 邮件 收 件 人 ， 默 认 支 持 4 个 ， 配 置 完 成 点 击 应 用 按钮 ， 保 存 配置 。 


SMTP ( 电子 邮件 ) IES ERHEHEIS E 
T 


SMTP (电子 邮件 ) EZE IP 地 址 或 Hoes i07180 — | 
FODA SEF 10.158 107.180 


局 用 验证 


413-6 Dell iDRAC 配 置 SMTP 服 务 器 地 址 及 端口 


此 处 填写 之 前 搭建 的 Postfix 内 网 IP 地 址 。 配 置 完 成 之 后 点 击 应 用 按钮 ， 保 存 配置 。iDRAC 邮 件 告警 配置 ， 通 过 这 三 步 即 可 完成 ， 点 击 电子 邮件 告警 1 后 面 的 发 送 按钮 ， 发 送 测试 邮件 。 此 时 会 收 到 如 图 
13-7 所 示 的 测试 告警 邮件 。 


Test email alert from idrac-2C44R12 -> 
发 件 人 人 :idrac-2C44R12 «idrac-2C44R120»smtp 
时 间 :2016 年 2 月 16 日 (星期 二 ) 晚上 8,22 


IPEA, : 浅 蓝 色 <2280143374@@99.,com> 
这 星 一 封 坟 圾 箱 中 的 邮件 ， 请 斩 轻 信 中 将、};C 款 竺 庶 假 信息 ,和 匆 轻 易 拨 打 陌 生 电话 。 他 举报 垃圾 邮件 移 回收 件 箱 
Event Message: Test email to user. 


Severity: Informational 
Date/Time: Tue Feb 16 2016 19:18:03 


To launch the iDR.AC7 Web Interface, click here: https://10. emma 
To launch the iDRAC7 Virtual Console, click here: https://10, console 


图 13-7 测试 邮件 内 容 


iDRAC 告 警 邮 件 中 ， 包 括 iDRAC 本 身 的 链接 地 址 、 虚 拟 终端 的 链接 地 址 。 内 容 部 分 还 会 包括 详细 的 告警 信息 。 


本 章 小 结 


本 章 介 绍 了 服务 器 硬件 监控 中 最 常见 的 监控 方式 ， 其 中 带 外 监控 在 系统 硬件 预警 和 告警 方面 具有 非常 重要 的 意义 ， 也 是 经 常 被 忽略 的 内 容 。 通 过 对 服务 器 进行 硬件 监控 ， 可 以 在 第 一 时 间 预 见 到 系统 问 
题 ， 进 而 排除 故障 。 


第 3 篇 “网络 分 析 技 术 


“ 第 14 章 使 用 tcpdump 与 Wireshark 解 决 疑难 问题 
“ 第 15 章 ”分析 与 解决 运营 商 动 持 问题 


“ 第 16 章 深度 实践 iptables 


第 14 章 ”使 用 tcpdump 与 Wireshark 解 决 疑难 问题 


Linux 作 为 网 络 操作 系统 提供 基础 网 络 服务 ， 在 很 多 情况 下 需要 一 款 能 够 进行 网 络 数 据 采集 和 分 析 的 工具 。 
:网络 应 用 程序 异常 衣 溃 时 ， 需 要 确认 应 用 程序 收发 的 数据 包 格式 和 内 容 是 否 符合 设计 规范 。 
“ 网 络 应 用 程序 响应 慢 时 ， 需 要 确认 是 否 存 在 网 络 传输 问题 或 者 应 用 程序 对 于 输入 处 理 慢 的 情况 。 
“ 用 户 无 法 使 用 网 络 应 用 程序 时 ， 需 要 判断 是 否 是 网 络 连 通 性 故障 所 导致 。 
“ 服务 器 受到 网 络 攻击 时 ， 需 要 分 析 攻 击 包 的 格式 和 内 容 ， 以 便 采取 针对 性 的 封锁 手段 。 
“ 新 接 入 一 种 非 开源 软件 提供 的 网 络 服务 时 ， 需 要 研究 其 网 络 通 信 特 点 的 情况 。 


基于 以 上 这 些 场 景 的 需要 ，Linux 下 提供 了 tcpdump 这 一 个 非常 优秀 的 网 络 数据 采集 工具 。 用 简单 的 话 来 定义 tcpdumpb， 就 是 : dump the traffic on anetwotk， 根 据 使 用 者 的 规则 定义 对 网 络 上 的 数据 包 进 行 
截获 的 包 分 析 工具 。 作 为 互联 网 上 经 典 的 系统 管理 员 必 备 工具 ，tcpdump 以 其 强大 的 功能 、 灵 活 的 截取 策略 ， 成 为 每 个 高 级 系统 管理 员 分 析 网 络 、 排 查 问题 等 所 必 备 的 工具 之 一 。tcpdump 提 供 了 源 代码 、 公 
开 的 接口 ， 因 此 具备 很 强 的 可 扩展 性 ， 对 于 网 络 维护 和 入 侵 者 都 是 非常 有 用 的 工具 。 对 于 tcpdump 的 抓 包 文件 ， 通 常 在 Windows 环 境 下 进行 分 析 ， 此 时 Wireshark 会 是 满足 这 种 需求 的 最 合适 软件 了 。 

本 章 从 tcpdump 的 工作 原理 开始 讲解 ， 深 入 tcpdump 实 战 ， 对 Windows 环 境 下 抓 取 回 环 端口 的 网 络 数据 也 进行 了 简要 说 明 ， 同 时 对 用 Wireshark 进 行 问题 分 析 和 案例 说 明 。 最 后 ， 本 章 指出 了 一 种 对 tcpdump 
抓 包 结果 进行 自动 化 分 析 的 方法 ， 并 进行 了 案例 说 明 。 


最 佳 实践 72: 理解 tcpdump 的 工作 原理 


在 使 用 一 种 软件 之 前 ， 必 须要 掌握 其 工作 原理 ， 这 样 才能 做 到 “ 知 其 然 ， 知 其 所 以 然 ”。 深 入 的 原理 理解 对 于 熟练 掌握 tcpdump 的 使 用 是 至 关 重要 的 。 


tcpdump 的 实现 机 制 


以 图 14-1 为 例 说 明 tcpdump 的 工作 原理 。 


telnet、ttp 等 应 用 程序 
User Space 


Kernel Space 


o € -— am o— — — 0 xm n 


Kernel Driver 


图 14-1 tcpdump 工 作 原理 


像 telnet、tftp 等 应 用 程序 ， 其 网 络 通信 收发 数据 ， 会 通过 完整 的 Linux 网 络 协议 栈 (Linux Network Stack) ， 由 Linux 操 作 系 统 完成 数据 的 封装 和 解 封装 。 以 基于 TCP 的 客户 端 和 服务 器 程序 为 例 ， 它 
们 的 调用 流程 如 图 14-2 所 示 。 


Chent 


socket() 


connect) 


Read/^write 


Data 


此 时 ， 应 用 程序 只 需要 对 应 用 层 数据 进行 读 写 即 可 ， 而 不 需要 关心 TCP、IP 及 数据 链 路 


listent ) 


accept() | 


14-2 ”基于 TCP 的 客户 端 和 服务 器 程序 调用 


而 tcpdump 这 一 类 的 应 用 程序 则 完全 不 同 ， 它 依赖 的 是 libpcap，libpcap 使 F 


的 是 一 种 称 为 设备 层 的 包 接 


层面 的 数据 ， 而 不 经 过 完整 的 Linux 网 络 协议 栈 。 


在 C 语 言 中 ， 调 用 设备 层 的 包 接口 使 用 如 下 方法 : 


层 的 头 部 封装 和 解 封装 。 


(packet interface on device level) 技术 。 使 


这 种 技术 ， 应 | 


程序 可 以 直接 读 写 内 核 驱 


#include <sys/socket.h> 
#include «netpacket/packet.h» 
#include <net/ethernet.h> /* the L2 protocols */ 


packet socket = socket(PF PACKET, int socket type, int protocol); 


PF_PACKET 套 接口 被 用 于 接收 和 发 送 在 设备 驱动 层 (OSI Layer 2) 的 数据 包 。 


在 以 上 的 函数 调用 中 ，socket type 可 以 是 以 下 2 种 。 


“SOCK_RAW， 此 时 收发 的 数据 包 包括 链 路 层 头 部 ， 例 如 源 MAC 和 目的 MAC 地 址 等 。 


“ SOCK_DGRAM， 此 时 收发 的 数据 包 不 包括 链 路 层 头 部 ， 直 接 操 作 IP 层 头 部 和 数据 。 


在 以 上 的 函数 调用 中 ，protocol 是 指 IEEE 802.3 协 议 号 。 特 别 地 ， 如 果 是 htons (ETH P ALL) 则 所 有 协议 的 数据 包 都 被 接收 。 


tcpdump 与 iptables 的 关系 


读者 在 研究 了 图 14-1 后 ， 可 能 会 有 疑问 ， 如 果 一 种 输入 的 网 络 通信 (INPUT) 被 iptables 给 禁止 了 ， 那 么 tcpdump 还 可 以 抓 取 到 吗 ? 


答案 是 肯定 的 。 如 图 14-1 所 示 ，tcpdump 直 接 从 网 络 驱动 层面 抓 取 输入 的 数据 ， 不 经 过 任何 Linux 网 络 协议 栈 。iptables 依 赖 的 netfilter 模 块 ， 工 作 在 Linux 网 络 协议 栈 中 ， 因 此 ，iptables 对 入 栈 的 策略 
会 影响 到 tcpdump 抓 取 。 但 iptables 的 出 栈 策 略 会 影响 数据 包 发 送 到 网 络 驱动 层面 ， 因 此 ， 它 的 出 栈 策略 会 影响 到 tcpdump 的 抓 取 。 


“ tcpdump 可 以 抓 取 到 被 iptables 在 INPUT 链 上 DROP 掉 的 数据 包 。 


"tcpdump 不 能 抓 取 到 被 iptables 在 OUTPUT 链 上 DROP 神 的 数据 包 。 


tcpdump 数 据 包 长 度 超过 网 卡 MTU 的 问题 


在 某 些 服务 器 上 抓 包 时 ， 会 看 到 包 的 大 小 超过 MTU+Ethernet 头 部 (1514 字 节 ) ， 如 图 14-3 所 示 。 


15 0,187505  113.57.236.14 221.231.128.45 TCP [1 253 35885 = 80 [PSH, ACK] $eq-3899550350 Ack-1349740222 Win-5888 Len-2872 


图 14-3 tcpdump 数 据 包 长 度 超过 网 卡 MTU 


可 以 看 到 全 所 示 的 以 太 网 帧 明显 超过 了 正常 的 以 太 网 1514 字 节 的 大 小 ， 这 个 是 什么 原因 导致 的 呢 ? 


这 是 网 卡 的 卸载 功能 (Offloading) 的 原因 。 请 参阅 “第 4 章 ”配置 及 调 优 LVS” 中 “最 佳 实践 24: 注意 网 卡 参数 与 MTU 间 题 ” 的 案例 部 分 。 


tcpdump 的 简要 安装 步骤 


tcpdump 依 赖 libpcap， 使 用 源码 安装 这 两 个 软件 的 最 新 版 ， 使 用 的 命令 如 下 : 


wget http://www.tcpdump.org/release/libpcap-1.7.4.tar.gz 
wget http: //www.tcpdump.org/release/tcpdump-4.7.4.tar.gz 
tar zxf libpcap-1.7.4.tar.gz 

cd libpcap-1l.7.4 

./configure 

make 

make install 

tar zxf tcpdump-4.7.4.tar.gz 

cd tcpdump-4.7.4 

./configure 

make 

make install 


使 用 如 下 命令 验证 安装 成 功 : 


[root@localhost ~]# tcpdump --version 
tcpdump version 4.7.4 

libpcap version 1.7.4 

OpenSSL 1.0.1e-fips 11 Feb 2013 


最 佳 实践 73: 学 习 tcpdump 的 5 个 参数 和 过 滤器 


使 用 tcpdump 进 行 网 络 抓 包 时 ， 必 须要 坚持 以 下 原则 。 


“ 抓 包 的 结果 应 该 尽量 少 。 过 多 的 无 用 信息 会 产生 信息 噪音 ， 从 中 分 离 有 效 信息 的 过 程 也 会 变 得 费时 党 力 。 
“ 客户 端 和 服务 器 端 都 能 够 完全 控制 的 情况 下 ， 同 时 在 两 端 进行 抓 包 分 析 确 认 。 


“ 怀疑 交换 机 等 网 络 设备 丢 包 时 ， 在 能 够 完全 控制 的 情况 下 ， 使 用 端口 镜像 的 方式 ， 把 网 络 设备 的 进出 流量 引导 到 服务 器 上 抓 包 分 析 确 认 。 


学 习 tcpdump 的 5 个 参数 


初次 使 用 tkcpdump 时 ， 使 用 tcpdump-h 命 令 可 以 看 到 它 有 数 十 个 参数 。 根 据 我 们 在 运 维 工作 中 的 经 验 ， 掌 握 tcpdump 以 下 5 个 参数 即 可 满足 大 部 分 的 工作 需要 了 。 


“i 参数 : 指定 需要 抓 包 的 网 卡 。 如 果 未 指定 的 话 ，tcpdump 会 根据 搜索 到 的 系统 中 状态 为 UP 的 最 小 数字 的 网 卡 确定 ， 一 般 情况 下 是 eth0。 使 用 -i 参 数 通 过 指定 需要 抓 包 的 网 卡 ， 可 以 有 效 地 减少 抓 取 到 的 
数据 包 的 数量 ， 增 加 抓 包 的 针对 性 ， 便 于 后 续 的 分 析 工 作 。 


-nnn 参数: 禁用 tcpdump 展 示 时 把 IP、 端 口 等 转换 为 域名 、 端 口 对 应 的 知名 服务 名 称 。 这 样 看 起 来 更 加 清晰 。 


“ -s 参 数 : 指定 抓 包 的 包 大 小 。 使 用 -s 0 指定 数据 包 大 小 为 262144 字 节 ， 可 以 使 得 抓 到 的 数据 包 不 被 截断 ， 完 整 反映 数据 包 的 内 容 。 


wÂ: 指定 抓 包 文件 保存 到 文件 ， 以 便 后 续 使 用 Wireshark 等 工具 进行 分 析 。 


学 习 tcpdump 的 过 滤器 


tcpdump 提 供 了 丰富 的 过 滤器 ， 以 支持 抓 包 时 的 精细 化 控制 ， 达 到 减少 无 效 信息 


“ host ab.c.d: 指定 仅 抓 取 本 机 和 某 主机 ab.c.d 的 数据 通信 。 


“ tcp portx: 指定 仅 抓 取 TCP 协 议 目 的 端口 或 者 源 端 口 为 x 的 数据 通信 。 


.icmp: 指定 仅 抓 取 ICMP 协 议 的 数据 通信 。 


b: 反 向 匹配 ， 例 如 port! 22， 抓 取 非 22 端 口 的 数据 通信 。 


以 上 几 种 过 滤器 规则 ， 可 以 使 用 and 或 者 or 进行 组 合 ， 例 子 如 下 。 


F 扰 的 效果 。 常 用 的 过 滤器 规则 有 下 面 几 个 。 


* host a.b.c.d and tcp port x: 则 只 抓 取 本 机 和 某 主 机 a.b.c.d 之 间 基 于 TCP 的 目的 端口 或 者 源 端口 为 x 的 数据 通信 。 


“ tcp port x oricmp: 则 抓 取 TCP 协 议 目的 端口 或 者 源 端口 为 x 的 数据 通信 或 者 ICMP 协 议 的 数据 通信 。 


最 佳 实践 74: 在 Android 系 统 上 抓 包 的 最 佳 方法 


随 着 移动 应 用 的 增加 ， 移 动 设备 访问 系统 应 
那么 对 于 分 析 问 题 将 会 有 很 大 的 帮助 。 


的 情况 越 来 越 多 ， 我 们 经 常会 遇 到 有 


幸运 的 是 ，Linux 环 境 中 强大 的 抓 包工 具 在 Android 系 统 里 面 也 有 移植 的 版 本 。 


注意 


在 Android 系 统 抓 包 时 ， 需 要 root 权 限 ， 不 同型 号 手机 的 root 过 程 不 同 ， 在 此 不 再 葛 述 。 


抱怨 说 使 


移动 设备 访问 网 站 等 业务 慢 的 问题 。 在 这 种 情况 下 ， 如 果 能 够 同时 在 移动 设备 和 服务 器 上 同时 抓 包 ， 


Android 版 本 的 tcpdump 下 载 地 址 是 http://www.androidtcpdump.com/android-tcpdump/downloads。 


另外 ， 在 Android 系 统 抓 包 时 ， 需 要 使 用 adb 这 个 工 


把 下 载 后 的 ttpdump 和 adb 工 具 及 其 依赖 的 dll 放 在 c: \adb 目 录 下 ， 如 下 所 示 : 


电 ， 下 载 地 址 是 http://developer.android.com。 


c: Nadb»dir 
驱动 器 C 中 的 卷 没有 标签 。 
卷 的 序列 号 是 FCAD-A4A7 


c:Nadb 的 目录 


2016/02/02 15:21 <DIR> 
2016/02/02 15:21 <DIR> 
2013/12/16 10:27 
2013/12/16 10:27 
2013/12/16 10:27 
2016/02/02 15:21 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/.. 
815,104 adb.exe T 
96,256 AdbWinApi.dll 
60,928 AdbWinUsbApi.dll 
1,893,728 tcpdump 
个 文件 2,866,016 字 节 
目录 5,564,440,576 可 用 字 节 


使 用 tcpdump 在 Android 系 统 抓 包 的 步骤 如 下 。 


步骤 1 创建 tcpdump 存 储 目录 并 修改 权限 。 


c:\adb>adb shell 


shell@Coolpad8720L:/ $ id # 检 查 当 前 用 户 的 权限 ， 在 设置 目录 权限 时 用 到 该 信息 


id 
uid-2000 (shell) gid-2000 (shell) 


groups-1003 (graphics) , 1004 (input) , 1007 (10g) , 1011 (adb) , 1015 (sdcard rw),1028(sdcard r), 3001(net bt admin),3002 (net_bt) , 3003 (inet) , 3006 (net bw stats) 


shell@Coolpad8720L:/ $ su # 切 换 成 root 
SU 


rootéCoolpad8720L:/ # mkdir /data/local/tmp # 创 建 目录 


mkdir /data/local/tmp 


root8Coolpad8720L:/ 4 chown shell.shell /data/local/tmp # 修 改 权 限 ， 否 则 无 法 使 用 adb Push 传输 tcpdump 文 件 到 该 目录 中 


chown shell.shell /data/local/tmp 
root&Coolpad87201:/ # exit # 退 出 root 权 限 
exit 


shell&Coolpad8720L:/ $ exit # 退 出 adb shell 


exit 


步骤 2 把 tcpdump 传 到 Android 系 统 中 。 


c:Nadb»adb push tcpdump /data/local/tmp/ 


2379 KB/s (1893728 bytes in 0.777s) 


步骤 3 ”确认 Android 系 统 的 基本 网 络 环境 。 


确认 网 卡 名 称 。 


root@Coolpad8720L:/ # netcfg 
netcfg 
ip6tn10 DOWN 
ccinet6 DOWN 
ccinet7 DOWN 
ccinet3 DOWN 
ccinet4 DOWN 
ccinet5 DOWN 
ccinet0 DOWN 
ccinetl DOWN 
ccinet2 DOWN 
lo UP 
Sit0 DOWN 
p2p0 UP 


D- 
Ooo-dooooooooo 


ocoonbooooooooo 
oOooooooooooo 


.0/0 
.0/0 
.0/0 
.0/0 
.0/0 
.0/0 
.0/0 
.0/0 
.0/0 
.0.1/8 
.0/0 
.0/0 


0x00000080 
0x00000080 
0x00000080 
0x00000080 
0x00000080 
0x00000080 
0x00000080 
0x00000080 
0x00000080 


00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 


00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 


00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 


00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 


00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 


00 
00 
00 
00 
00 
00 
00 
00 
00 


0x00000049 00:00:00:00:00:00 
0x00000080 00:00:00:00:00:00 


0x00001003 12:dc:56:7c:35:7d 


wlan0 UP 192.168.74.27/21 0x00001043 18:dc:56:7c:35:7d # 该 网 卡 为 此 时 上 网 用 到 的 网 线 网 卡 
tun10 DOWN 0.0.0.0/0 — 0x00000080 00:00:00:00:00:00 
检查 路 由 表 。 


root@Coolpad8720L:/ # ip route show 

ip route show 

default via 192.168.72.1 dev wlan0 

default via 192.168.72.1 dev wlan0 metric 318 

192.168.72.0/21 dev wlan0 scope link 

192.168.72.0/21 dev wlan0 proto kernel scope link src 192.168.74.27 metric 318 
192.168.72.1 dev wlan0 scope link 


仿 查 DNS 配 置 。 


root@Coolpad8720L:/ # getprop net.dnsl 
getprop net.dnsl 
202.96.209.5 # 本 手机 使 用 的 DNS 服务 器 


步骤 4 使 用 cpdump 抓 包 。 


root@Coolpad8720L:/ # cd /data/local/tmp 

cd /data/local/tmp 

root@Coolpad8720L: /data/local/tmp # chown root.root tcpdump # 修 改 用 户 
chown root.root tcpdump 

root8Coolpad8720L:/data/local/tmp # chmod 755 tcpdump # 修 改 权限 
chmod 755 tcpdump 


rocticoolpadi 120 /data/local/tmp # ./tcpdump -i wlan0 tcp -s 0 -nnn -w Ceolpad yn pcap -c 1000 


-s 0 -nnn -w Coolpad8720L.pcap -c 1000 
Cai listening on wlan0, link-type EN10MB (Ethernet), capture size 262144 bytes 
1000 packets captured 
1129 packets received by filter 
0 packets dropped by kernel 
root8Coolpad8720L:/data/local/tmp # chown shell.shell Coolpad8720L.pcap 


步骤 5 把 抓 包 文件 传 到 本 地 。 


c:\adb>adb pull /data/local/tmp/Coolpad8720L.pcap . 
2557 KB/s (659948 bytes in 0.252s) 


经 过 以 上 5 个 步骤 的 操作 后 ， 即 可 使 用 Wireshark 打 开 Coolpad8720L.pcap 进 行 网 络 通信 协议 的 分 析 了 。 


最 佳 实践 75: 使 用 RawCap 抓 取 回 环 端 口 的 数据 


在 一 些 应 用 场景 下 ， 在 一 台 服 务 器 上 ， 会 部 署 多 个 应 用 程序 ， 这 些 应 用 程序 之 间 使 用 127.0.0.1 本 地 回环 地 址 进行 TCP/IP 通 信 。 在 Windows 上 ， 如 果 需 要 对 这 些 应 用 程序 之 间 的 数 


到 RawCap 这 样 一 款 工具 了 。 有 读者 可 能 要 问 ， 使 用 Wireshark 不 行 吗 ?” 答案 是 否定 的 ，Wireshark 无 法 抓 取 到 回环 端 


上 的 数据 通信 。 原 


RawCap 是 一 个 免费 的 Windows 抓 包工 具 ， 它 的 底层 使 用 了 raw socket 技 术 。RawCap 具 有 以 下 特点 。 


- 可 以 嗅 探 任何 配置 了 IP 地 址 的 端口 ， 包 括 127.0.0.1 的 回环 端口 。 

“ RawCap.exe 仅 仅 23KB， 非 常 小 。 

- 除了 需要 .NET Framework 2.0 外 ， 不 需要 其 他 任何 额外 的 DLL 或 者 库 函 数 。 
“无需 安装 ， 下 载 后 即 可 运行 

“ 可 以 嗅 探 Wift 和 PPP 端 口 。 

“ 对 系统 内 存 和 CPU 压力 影响 较 小 。 

“ 简单 可 靠 。 


RawCap 的 下 载 地 址 为 http://www.netresec.com/? download=RawCap。 


我 们 下 载 完成 后 ， 放 在 c: \， 使 用 如 下 命令 即 可 看 到 各 种 参数 : 


因 是 这 些 数据 包 并 没有 使 


实际 的 网 络 端 


居 通 信 进 行 分 析 ， 就 


进行 发 送 。 


c:\>RawCap.exe -h 
NETRESEC RawCap version 0.1.5.0 
http://www.netresec.com 


Usage: RawCap.exe [OPTIONS] <interface_nr> <target_pcap_file> 


OPTIONS: 

-=f Flush data to file after each packet (no buffer) 
-c «count» Stop sniffing after receiving «count» packets 

=s «sec» Stop sniffing after «sec» seconds 

INTERFACES: 

0. IP : 192.168.20.96 


NIC Name : 本 地 连接 
NIC Type : Ethernet 


1. IP z 127:.0:0.1 
NIC Name : Loopback Pseudo-Interface 1 
NIC Type : Loopback 


Example: RawCap.exe 0 dumpfile.pcap 


抓 取 127.0.0.1 的 数据 通信 ， 并 且 保 存 为 nydump.pcap 的 方法 如 下 : 


c:WVRawCap.exe 1 mydump.pcap 

Sniffing IP : 127.0.0.1 # 端 口 IP 信 息 
File : mydump.pcap # 保 存 文件 的 名 称 
Packets 0 # 当 前 已 经 抓 包 的 数量 


最 佳 实践 76: 熟悉 Wireshark 的 最 佳 配 置 项 


Wireshark 是 对 tcpdump 和 RawCap 抓 包 文件 分 析 的 最 佳 工具 ， 掌 握 Wireshark 的 关键 使 用 方法 和 技巧 ， 对 于 提高 分 析 问 题 的 效率 起 到 关键 作用 。 


Wireshark 安 装 过 程 的 注意 事项 


在 Wireshark 的 安装 过 程 中 ， 会 提示 是 否 安装 WinPcap， 如 图 14-4 所 示 。 


在 图 14-4 中 ， 需 要 选择 安装 WinPcap， 目 的 是 能 够 在 Windows 上 抓 取 和 Linux 的 通信 数据 。 


Wireshark 2.0.1 (32 


Install WinPcap? 
WinPcap is required to capture live network data. Should WinPcap be installed? 


c — installed bbs version 


WinPcap is currently not installed 
ID 


Install 
[V] Install WinPcap 4. 1.3 
(Use Add/Remove Programs first to uninstall any undetected old WinPcap versions) 


What is WinPcap? 


Wireshark Installer (tm) 


图 14-4 ”安装 WinPcap 的 选项 


Wireshark 的 关键 配置 项 


在 Wireshark 安 装 完成 后 ， 

1. 禁 用 名 称 解析 

名 称 解 析 (Name Resolution) 尝试 把 数字 的 地 址 转换 成 人 可 读 的 形式 。 在 实践 中 ， 可 以 看 到 名 称 解析 有 以 下 问题 。 
“ 名 称 解析 经 常 失败 ， 解 析 条 目 在 名 称 服务 器 上 不 存在 。 

“ 解析 的 名 字 未 保存 在 抓 包 文件 中 。 在 每 次 打开 该 文件 时 ， 可 能 发 现 解析 出 来 的 名 称 有 所 不 同 ， 影 响 判 断 。 

! DNS 请 求 会 导致 抓 包 内 容 增加 。 

“ Wireshatk 的 缓存 可 能 导致 结果 不 准确 。 


基于 以 上 分 析 ， 必 须 禁 用 名 称 解析 ， 禁 用 的 方法 如 下 。 


点 开 Edit->Preferences， 选 中 Name Resolution， 黑 色 框 中 全 部 清除 选中 ， 如 图 14-5 所 示 。 


2. 使 用 TCP 绝 对 序列 号 


在 定位 网 络 问题 时 ， 我 们 常常 在 客户 端 和 服务 器 端 同时 抓 包 ， 这 时 就 需要 一 种 机 制 可 以 让 两 边 的 数据 能 够 对 应 起 来 ， 使 用 TCP 序 列 号 是 一 个 最 好 的 方法 。Wireshark 默 认 使 用 了 相对 序列 号 ， 不 利于 核对 
客户 端 和 服务 器 端 双方 的 数据 通信 。 因 此 ， 我 们 需要 使 用 绝对 序列 号 。 配 置 的 方法 如 下 。 


点 开 Edit->Preferences->Protocols， 选 中 TCP， 取 消 选 中 黑色 框 所 示 的 内 容 ， 如 图 14-6 所 示 。 


Resolve MAC addresses: 
Resolve transport names: 


Resolve network (1P) addressas: 


Use captured DNS packet data for address resolution: 


Use an external network name resover: 


Enable concurent DNS name resolution: 


Maxmum concurrent requests: 
Only use the profe "hosts" file: 
Enable DID resolution: 


Suppress SML arrors: 
SMI (MIB and PIB} paths: 
SMI (MIB and PIR) modules: 
GeoIP database directories: 
图 14-5 ”禁用 名 称 解析 
Show TEP sumrrany n protocol traa: 
validata the TOP checksum f possible: 
Alow subdissector to reassemble TCP streams: 
Analyze TCP sequence numbers: 
Reletwa sequence numbers: 
5caing factor to use when not available from capture: 


Track number of bytes in fight: 


Calculate conversation timestamps: 


Try hauristic sub-discactors first: 


]gnare TOF Tirnestamps in summary: 
Da nat call sib dissecrors for error packets: 


TEF Expermental Options with a Magic Number: 


H14-6 ”使 用 TCP 绝 对 序列 号 


3. 自 定义 HTTP 解 析 的 端口 


IN ot known 


有 时 ，HTTP 应 用 (以 手 游 为 多 见 ) 并 不 是 开放 在 80 的 知名 端 


的 端口 。 设 置 方法 如 下 。 
点 开 Edit->Preferences->Protocols， 选 中 HTTP， 
TCP Ports 中 ， 增 加 “， 


这 样 Wireshark 就 可 尝试 以 HTTP 协 议 解 析 10001 端 


如 图 14-7 所 示 。 


10001” 端 口 的 配置 内 容 。 


口上 的 数据 通信 内 容 了 。 


口 ， 而 是 使 用 了 例如 10001 这 样 的 高 端口 。 为 了 使 Wireshark 能 够 主动 以 HTTP 协 议 解 析 这 些 非 知 名 端口 的 通信 内 容 ， 需 要 自 定义 HTTP 解 析 


eassemble HTTP headers spanning multiple TCP segments: 


Reassemble HTTP bodies spanning multiple TCP segments: 


Uncompress entity bodies: 


Reassemble chunked transfer-coded bodies: 


TCP Ports: | ).3128,3132,5985.8080,8088.11371.1900.2865, zoho 


SSL/TLS Ports: |443 


使 用 追踪 数据 流 功 能 


Wireshark 中 ， 对 于 TCP 数 据 ， 它 提供 了 一 种 追踪 数据 流 的 功能 。 
直接 。 如 图 14-8 所 示 ， 选 择 需 要 追踪 的 TCP 数 据 流 中 任何 一 个 数据 包 ， 点 击 右键 ,选择 Follow Tcp Stream, 


1 0.000000 
0.000034 
0.000131 
0.000169 
0.000349 
0.000354 
0.145606 
0.145649 
0.145745 
0.145782 

63896 


2 
3 
4 
5 
6 
7 
8 
9 
0 


.164341 
.164356 
164951 
.165100 
.165199 
.165390 
165508 
.172767 
.173233 
-173601 


2 
3 
4 
5 
6 
7 
8 
9 
0 
1 
2 
3 


cooocoooococoo 


Tm 
M | 


Lr 5rE- 


.164084 


101.126.197.26 
10.168.101.86 
101.126.197.?26 
10.168.101.86 
101.126.197. 26 
10.168.101.86 
61.172.247.170 
10.168.101.86 
61.172.247.170 


10.168.101.86 


.101.55 
.101.86 
-101.86 
-101.55 
-101.55 
-101.86 
.101.55 
.101.86 
.101.55 
.101.86 


展示 结果 如 图 14-9 所 示 ， 该 连接 上 的 通信 一 目 了 然 。 


10.168.101.86 
101.126.197. 26 
10.168.101.86 
101.126.197. 26 
10.168.101.86 
101.126.197. 26 
10.168.101.86 
61.172.247.170 
10.168.101.86 
61.172. 247. 170 


10.168. 
10.168. 
10.168. 
10.168. 
10.168. 
10.168. 
10.168. 
10.168.101.55 
10.168.101.86 
10.168.101.55 


66 bytes on wire (528 bits), 66 bytes captured (528 bit 
00:00:5e:00:01:02, Dst: f8R:Of:41:f6:b9:10 
Protocol version 4, Src: 101.126.197.26, Dst: 10.168.10 


14-7. 自 定义 HTTP 解 析 的 端口 


它 以 思维 数组 (通信 双方 的 IP 地 址 ， 通 信 双 方 的 端口 号 ) 为 依据 ， 可 以 追踪 该 连接 上 的 所 有 通信 予以 过 滤 展示 。 此 时 ， 看 起 来 更 加 清晰 


Mark Packet (toggle) 
£ Ignore Packet (toggle) 
(O Set Time Rafarance (toggle) 
3m 11 © Time Shift... 
TCP V Edt Packet 
TCP iP? Packet Comment... 


HTTP 


e Manually Resolve Address 


“TEP! | Apply as Filter 
TCP i 


Prepare a Alter 
Conversation Fiter 
TCP Colorze Conversation 
MySQL J SCTP 

MySQL Folow UDP Stream 
MySQL Follow SSL Stream 
MySQL 
MySQL 
MySQL 
MVSOL 


TCP 
MySQL 


Copy 
Protocol Preferences 
1 38 Decode As... 


& Print... 
Show Packet in New Window 


14-8 使 用 追踪 数据 流 功 能 的 方法 


案例 一 


101.126.197.26 
10.168.101.86 
101.126.197.26 
10. 168. 101. 86 
101.126. 197.26 
10.168.101.86 
50 0.383523 101.126.197. 26 
51 0.383552 10.168.101.86 
11774 105.226284 10.168.101. 86 
11775 105.226339 101.126.197.26 
11780 105.231859 10.168. 101.86 
11781 105.231903 101.126.197.26 
11782 105.231941 10.168.101.86 
11783 105.231990 101.126.197.26 


? 0.000034 
3 0.000131 
4 0.000169 
5 0. 000349 
6 0.000354 


10.168.101.86 
101.126.197.26 
10.168.101. 86 
101.126. 197.26 
10.168.101. 86 
101.126.197.26 
10.168.101.86 
101.126.197.26 
101.126.197.26 
10.168.101.86 
101.126.197.26 
10.168.101.86 
101.126.197.26 
10.168.101. 86 


最 佳 实践 77: 使 用 Wireshark 分 析 问 题 的 案例 


66 43854 一 x L5YN] 5eq-3438927793 Win=8190 Len-0 M55-1460 W5-16 SACK PERM-1 
5eq-1812057219 4ck-3438927794 win-14600 Len=0 MS5-146 
500 [TCP ane of a reassembled ppU] 
54 80 ~ 43854 [ACK] Seq-1812057220 Ack-3438928240 win-15872 Len-0 
1133 [TCP segment of a reassembled PDU] 
54 B0 ~ 43854 [ACK] 5eq-1812057220 Ack-3438929319 win-17920 Len=0 


936 POST /session/login?cnt-14641660e0d&t imestamp-1401285345809 HTTP/1.1 (appl 


54 80 ~ 43854 [ack] seq-1812057220 Ack-3438930201 win-20480 Len=0 
431 [TCP segment of a reassembled PDu] 
60 43854 ~ 80 [ACK] 5eq-3438930201 4ck-1812057597 win-79984 Len-0 
59 HTTP/1.1 200 OK (application/json) 
60 43854 ~ 80 [FIN, ACK] 5eq-3438930201 Ack-1812057602 win-79984 Len=0 
54 80 ~ 43854 [FIN, ACK] 5eq-1812057602 Ack-3438930202 win-20480 Len=0 
5eg-3138930202 ACk-1812057603 win-79984 Len-0 


图 14-9 ”使 用 追踪 数据 流 功能 的 结果 


在 完成 了 tcpdump 抓 包 和 Wireshark 的 配置 后 ， 现 在 来 看 看 如 何 使 用 这 两 个 工具 分 析 和 定位 问题 。 


定位 时 间 戳 问题 


1. 问 题 描述 


公司 近 2000 个 员工 电脑 上 网 ， 少 数 Windows 7 系统 电脑 不 能 访问 自己 公司 的 网 站 (www.woyo.com) ， 有 时 重 置 一 下 IE8 又 可 以 访问 几 次 ; 但 同样 环境 下 ( 同 网 络 端 
Windows XP 系 统 的 机 器 即 可 访问 。 


2. 抓 包 方法 


在 网 站 Linux 服 务 器 使 用 如 下 命令 进行 抓 包 : 


同 IP 地 址 等 ) 更 换 成 


tcpdump -i eth0 -nnn -s 0 -w tcpdump.pcap tcp port 80 


其 中 ，eth0 为 外 网 网 卡 ， 指 定 抓 取 端口 为 80 的 数据 通信 。 


3 .分析 方法 


使 用 如 下 过 滤器 进行 筛选 : 


tcp.analysis.retransmission or tcp.analysis.fast retransmission or tcp.flags.reset — 1 


如 图 14-10 所 示 ， 可 以 看 到 来 自 客户 端的 请 求 在 建立 TCP 三 次 握手 时 ， 服 务 器 端 没 有 应 答 SYN+ACK， 也 就 是 说 服务 器 端 忽略 了 来 自 客 户 端的 SYN 包 。 


Time Source Protocol Info 
334 25,844909 173.11.102.86 64774 http 上 Sseq-0 win-865535 Len-Q9 wss-1460 T5V-723892472 
455 26.776702 173.11.102.86 seq=0 win-65535 Len=0 MSS-1460 wW5-1 T5V-723892481 SACK PERM-1 
463 27,775178 173.11.102. 86 Seq-0 win-65535 Len-0 MSS-1460 WS-3 TSV-723892491 SACK PERM-1I 
475 28.779858 173.11.102.86 Seq=0 Win=65535 Len=0 MSs=1460 W5=3 T5V-723832501 SACK PERM-1 
478 29.781389 173.11.102.56 Seq-Uü win-65535 Len-0 MSS-1460 wW5-3 TSW-723892511 SACK PERM-I 
482 30.779827 173.11.102.86 Seq-0 win-65535 Len-0 MSS-1460 ws-3 TSV-723892521 SACK, PERM-1 
503 32.782809 173.11.102.86 Seq-ü win-65535 Len-0 MS5-1460 W5-1 T5V-7231892541 SACK PERM-T 
14-10 ”服务 器 忽略 客户 端 SYN 包 


通过 分 析 这 一 类 数据 包 的 特点 ， 可 以 看 到 ， 在 客户 端 发 过 来 的 SYN 包 中 ， 含 有 类 似 Timestamps: TSval 3598166009, TSecr 0 这 样 的 TCP 选 项 。 这 个 是 什么 含义 呢 ? 
在 RFC 1323 (https://www.ietf.org/rfc/rfc1323.txt) 中 ， 提 出 了 TCP 的 扩展 选项 ， 来 实现 以 下 的 目的 。 
提高 高 带宽 延 时 积 (bandwidth*delay) 的 性 能 。 


“ 增加 极 大 传输 速率 链 路 的 可 靠 性 。 


其 中 ，“ 提 高 高 带宽 延 时 积 (bandwidth*delay) 的 性 能 ”使 用 到 了 以 下 两 种 技术 。 


“ 窗口 扩大 选项 (Window Scale) 。 时 积 的 链 路 上 ， 这 样 会 导致 大 量 的 时 间 等 待 ， 传 输 


效率 不 高 。 通 过 窗口 扩大 选项 ， 可 以 突破 65KB 的 限制 ， 


默认 TCP 的 窗口 只 有 2*16 二 65KB， 也 就 是 最 大 只 能 一 次 性 传输 65KB 的 数据 后 ， 必 须 等 待 对 端的 确认 。 在 高 带宽 延 
此 时 得 在 计算 对 端 窗口 大 小 为 对 端 宣告 的 窗口 大 小 ( 字 节 ) *2*Shift Counte 


- 有 选择 的 确认 技术 (Selective Acknowledgments) 。 这 种 机 制 ， 使 得 对 端 可 以 一 次 确认 多 个 非 连 续 的 TCP 接 收 片 段 。 对 于 已 确认 的 数据 ， 不 再 进行 发 送 ; 仅仅 重新 发 送 未 确认 部 分 即 可 。 


“增加 极 大 传输 速率 链 路 的 可 靠 性 ”使 用 到 了 时 间 戳 (Timestamps) 选项 。 通 过 对 每 个 TCP 包 加 入 时 间 戳 ， 可 以 知道 该 次 会 话 (TCP 连 接 ) 上 的 数据 包 是 否 是 过 期 需要 丢弃 的 。 


通过 以 上 分 析 ， 结 合 本 次 环境 的 因素 如 下 。 


“大量 用 户 (2000 台 电脑 ) 在 一 个 NAT 设 备 后 面 。 

“ 访问 同一 个 网 站 (同一 个 目的 IP 和 端口 ) 。 

“ 不 同 用 户 的 电脑 ， 时 间 可 能 不 一 致 ， 有 的 时 间 相对 标准 时 间 慢 ， 有 的 时 间 相 对 标准 时 间 快 。 

- Windows 7 用 户 经 常 出 现 问 题 (Windows 7 用 过 Tcp1323Opts 注 册 表 选项 启用 了 窗口 扩大 选项 和 时 间 稚 选项 ，Windows XP 中 默认 未 启用 ) o 


基本 可 以 推断 是 不 同 大 量 用 户 经 过 NAT 设 备 访问 同一 个 网 站 时 ， 如 果 NAT 上 端口 重用 了 ， 而 后 一 个 用 户 的 客户 端 时 钟 早 于 前 一 个 用 户 的 客户 端 时 钟 ， 那 必然 导致 Linux 服 务 器 把 SYN 包 丢掉 ， 因 为 它 认 为 
后 一 个 连接 的 请 求 (SYN) 是 在 网 络 上 前 一 个 连接 后 达到 的 ， 需 要 丢弃 。 


4. 解 决 方法 


1) Linux 服 务 器 检查 ， 在 /etc/sysctl.conf 文 件 中 加 入 下 列 行 (以便 下 次 服务 器 重启 生效 ) : 


net.ipv4.tcp timestamps = 0 


同时 在 shell 命 令 行 中 ， 以 root 身 份 运行 : 


sysctl -w net.ipv4.tcp timestamps-0 


上 述 代码 用 于 即时 生效 该 配置 。 
2) 某 些 Windows 7 系统 客户 端 修改 注册 表 中 下 面 这 个 键 值 : 
HKEY LOCAL MACHINE\System\CurrentControlSet\Services\Tcpip\Parameters 的 cp1323Opts 值 ， 将 其 改 为 0 (十 进 制 ) 。 注 意 ，Windows XP 系统 不 存在 这 个 键 值 。 


修改 后 需 重 启 机 器 。 


案例 二 ”定位 非 正 常 发 包 问题 


1. 问 题 描 述 


我 们 在 查看 一 台 虚 拟 机 时 ， 发 现 其 带宽 形态 存在 异常 ， 如 图 14-11 所 示 。 


D 网 络 带 宽 (Mb/s) — 入 流量 一 - 出 流量 


80.4 
53.6 
26.8 


0 | 
2016/02/02 00:00 2016/02/02 11:00 2016/02/02 22:00 2016/02/03 09:00 2016/02/03 20:00 


入 流量 : 


0.00Mb/s 0.00Mbys 0.14Mbys 100.00Mb/s  100.00Mb/s 100.00 Mb/s 
最 小 值 FHE BAE 最 小 值 平均 值 最 大 值 


图 14-11 虚拟 机 带宽 异常 


从 图 14-11 中 可 以 看 到 以 下 问题 。 


- 该 虚拟 机 的 出 流量 带宽 达到 了 给 它 限 制 的 100Mbps， 而 入 流量 带宽 接近 于 零 ， 出 和 入 的 比例 非常 大 。 
“ 该 虚拟 机 的 出 流量 带宽 一 直 维持 在 高 位 ， 没 有 任何 变化 。 
通过 以 上 两 点 的 分 析 ， 我 们 怀疑 这 个 虚拟 机 的 网 络 行为 存在 异常 。 


2. 抓 包 方法 


在 宿主 机 上 ， 使 用 如 下 命令 确认 该 虚拟 机 的 名 称 : 


# virsh list 
Id 


Name State 
2 r2-6683 running 
3 r2-5261 running 
4 12-4482 running # 确 认 是 这 个 虚拟 机 
5 r2-5388 running 
6 r2-5255 running 
7 r2-5969 running 
8 r2-5171 running 


使 用 如 下 命令 查看 当前 该 虚拟 机 对 应 宿主 机 上 的 网 卡 (vnet9) : 


# virsh dumpxml r2-4482 
«interface type-'bridge'» 
«mac address-'02:00:0a:2e:00:07'/» 
<source bridge-'br3.2000'/» 
«target dev-'vnet4'/» 
«model type-'virtio'/» 
«filterref filter-'clean-traffic'» 
<parameter name-'IP' value-'10.46.0.7'/» 
«/filterref» 
«alias name-'net0'/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 
«interface type-'bridge'» 
«mac address-'02:00:75:79:27:0a'/» 
<source bridge-'br0'/» 
«bandwidth» 
«inbound average-'256' peak-'256' burst-'256'/» 
«outbound average-'256' Peak=1256' burst-z'256'/» 


Xparameter name-'IP' value-'xxx.yyy.39.13'/» 


«/filterref» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x04' function-'0x0'/» 


«target dev-'vnet9'/» #vnet9 
«/interface» 


«model type-'virtio'/» 
X«filterref filter-'r2-4482'» 


«alias name-'netl'/» 


«/bandwidth» 


77: 


现在 看 vnet9 的 网 络 数据 情况 ， 如 下 月 


UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 


Link encap:Ethernet  HWaddr FE:00:75:79:27:0D 
RX packets: 


# ifconfig vnet9 


vnet9 


352703579277 errors:0 dropped:0 overruns:0 frame:0 


TX packets:121474302 errors:0 dropped:0 overruns:0 carrier:0 


collisions:0 txqueuelen:500 


TX bytes:8432409427 (7.8 GiB) 


RX bytes:360385917234000 (327.7 TiB) 


2903.5) , 


我 们 注意 到 ，vnet9 RX (接收 ) 的 数据 包 352703579277 远 远大 于 TX (发 送 ) 的 数据 包 121474302 (接收 和 发 送 比 : 352703579277/121474302 


法 


# tcpdump -i vnetl -nnn -c 50000 -s 0 -w r2-4482.pcap 


使 用 如 下 命令 ， 在 宿主 机 上 抓 包 ， 看 看 到 底 发 生 了 什么 : 


3. 分 析 方 


7o 


12H 


如 图 14- 


行 分 析 


使 用 Wireshark 进 : 


在 获取 了 r2-4482.pcap 后 ， 
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图 14 


可 以 看 到 这 个 虚拟 机 发 出 的 前 10 个 数据 帧 都 是 SYN 包 ， 有 以 下 2 个 特点 。 


“ SYN 包 连续 发 送 ， 间 隔 时 间 较 短 ， 不 符合 正常 TCP 重 传 的 时 间 控制 。 


次 握手 的 SYN 包 中 ， 不 会 携带 任何 数据 。 


“ SYN 包 中 包含 了 970 个 字 节 的 数据 ， 如 力 所 示 。 在 正常 TCP 


通过 进一步 分 析 可 以 看 到 ， 所 有 SYN 包 中 的 970 字 节 的 内 容 完全 相同 ， 如 图 14-13 所 示 。 


图 14-13” 非 正常 数据 包 内 容 


义 的 数字 0。 由 此 可 以 推断 ， 这 个 虚拟 机 是 被 用 作 了 SYN 携 带 数据 的 DDOS 攻 击 源 。 


E 
I 


非 正常 数据 包 的 内 容 都 是 无 


可 以 看 到 ， 这 


通过 联系 该 虚拟 机 的 使 用 方 ， 查 到 确实 有 一 个 程序 ， 使 用 了 构造 的 发 包 接口 ， 大 量 发 送 攻击 数据 。 我 们 安排 用 户 果断 停止 了 这 样 一 个 有 安全 风险 的 程序 ， 然 后 进行 相应 的 安全 加 固 。 


4 .解决 方法 


最 佳 实践 78: 使 用 libpcap 进 行 自动 化 分 析 


肖 耗 大 量 内存 ， 同 


了 。 首 先 打 开 文 件 本 身 会 非常 慢 ， 


就 不 适 


在 以 上 的 章节 中 ， 使 用 Wireshark 可 以 有 效 地 分 析 了 tcpdump 的 抓 包 内 容 ， 进 而 定位 问题 。 但 是 如 果 抓 包 文件 巨大 ， 再 使 用 Wireshark 


时 ， 如 果 进行 过 滤 和 分 析 ， 就 更 加 费时 费力 了 。 在 此 ， 提 出 了 使 用 程 


自动 化 分 析 的 技术 。 


在 进行 编程 之 前 ， 需 要 安装 相关 的 依赖 项 和 库 ， 使 用 如 下 命令 : 


yum -y install libpcap perl-Net-Pcap perl-NetPacket 


作为 演示 ， 使 用 如 下 脚本 来 解析 Gameclient.pcap 中 的 HTTP 响 应 ， 并 打印 出 来 : 


#!/usr/bin/perl 

use strict; 

use warnings; 

use Net::Pcap qw(:functions); 

use NetPacket::Ethernet qw(:types); 
use NetPacket::IP qw(:protos); 

use NetPacket::TCP; 

use NetPacket::TCP; 


my $pcapfile = "Gameclient.pcap"; # 指 定 需要 解析 的 文件 


my $err; 
my $pcap = Net::Pcap::open offline( $pcapfile, \$err ) or die "Can't read '$pcapfile': $err\n";# 使 用 Pcap 打 开 文 件 
Net::Pcap::loop( $pcap, -1, N&process packet, '' ); # 循 环 ， 直 到 文件 尾部 


Net: :Pcap: :close ($pcap) ; Vd i 
# 函 数 process_packet 实 际 处 理 每 个 个 包 ， 匹 配 、 打 印 
sub process packet { 
my ( $user data, $header, $packet = 
# NetPacket: :Ethernet: :strip ($packet) m 部 去 除 ， 返 回 IP 包 
my $ip = NetPacket::IP-»decode( NetPacket::Ethernet::strip($packet) );# 对 IP 包 进行 解析 
if ( $ip->{proto} == IP PROTO TCP ) {# 先 过 滤 TCP 协 议 
my $TCP = NetPacket::TCP->decode( $ip->{data} ); # 以 TCP 协 议 解析 数据 
if ( $TCP->{src_port} == 80 ) {# 匹 配 服务 器 端的 HTTP 响 应 
print $TCP -»(data), "Xn"; # 打 印 响应 内 容 


本 章 小 结 


tcpdump 和 Wireshark 是 网 络 分 析 的 两 个 “杀手 铀 ”级别 的 工具 ， 加 上 RawCap 的 补充 ， 这 三 者 几乎 可 以 覆盖 当前 主流 Windows、UNIX、Linux 系 统 的 网 络 分 析 需 求 。 高 效 地 使 用 这 3 个 工具 ， 可 以 起 到 事 半 功 
们 的 效果 。 本 章 从 tcpdump 的 原理 入 手 ， 透 彻 讲解 了 其 实现 机 制 ， 让 读者 做 到 了 解 工具 背后 的 知识 。 解 疑 释 芒 了 tcpdump 与 iptables、 网 卡 邵 载 功 能 的 关系 。 对 Wireshatk 的 核心 用 法 做 了 简明 扼要 的 冰 述 ， 掌 握 
本 章 中 的 Wireshatk 要 点 即 掌握 了 它 的 基本 功能 ， 满 足 运 维 工 作 的 要 求 。 在 案例 部 分 ， 可 以 看 到 tcpdump 和 Wireshark 结 合 能 够 切切 实 实 解决 工作 中 的 疑难 问题 。 对 于 抓 包 文件 的 自动 化 分 析 ， 给 出 了 使 用 libpcap 
的 pe 实现， 希望 能 够 在 读者 的 实际 工作 中 起 到 参考 的 作用 ， 以 便 在 遇 到 大 数据 需要 分 析 时 ， 有 思考 的 方向 。 


第 15 章 “分 析 与 解决 运营 商 劫持 问题 


运营 商 动 持 用 户 的 正常 访问 流量 ， 在 互联 网 行业 里 是 一 个 大 家 都 知道 的 “秘密 ”。 了 既然 是 “秘密 ”， 为 什么 又 是 大 家 都 知道 的 呢 ? “秘密 ”是 指 这 个 是 大 家 心照 不 宣 ， 没 有 人 公开 去 讨论 去 批判 。 大 
都 知道 ， 是 因为 每 个 人 或 多 或 少 都 遇 到 过 这 种 问题 。 


一 直到 2015 年 12 月 25 日 ， 一 份 《 六 公司 关于 抵制 流量 劫持 等 违法 行为 的 联合 声明 》 的 出 炉 让 运营 商 劫持 问题 浮 出 了 水 面 。 今 日 头条 、 美 团 大 众 点 评 网 、360、 腾 讯 、 微 博 、 小 米 科 技 等 6 家 互联 网 公司 共 
同 发 表 了 一 份 《六 公司 关于 抵制 流量 劫持 等 违法 行为 的 联合 声明 》， 呼 吁 有 关 运营 商 严 格 打击 流 量 劫持 问题 ， 并 保留 进一步 采取 联合 行动 的 可 能 。 声 明 指 出 ， 轩 扰 互 联网 行业 多 年 的 流量 劫持 问题 对 互联 网 
公司 、 普 通用 户 的 正当 利益 均 造 成 了 严重 的 损害 ， 动 持 流量 者 提供 的 信息 服务 ， 由 于 完全 脱离 相关 法 律 监管 ， 若 放任 这 种 非法 劫持 的 泛滥 ， 将 带 来 无 法 挽回 的 恶果 。6 家 公司 希望 “社会 各 界 充分 重视 流量 动 
持 这 一 问题 的 严重 性 ， 采 取 共 同 措施 抑制 劫持， 共同 打造 一 个 健康 、 诚 信 、 有 序 的 市 场 环境 。” 


盛大 游戏 作为 国内 知名 的 游戏 公司 ， 为 千 万 级 游戏 玩家 提供 游戏 服务 。 我 们 在 运 维 实践 中 ， 也 曾经 遇 到 过 被 运营 商 劫持 的 问题 ， 并 进行 了 深入 的 分 析 ， 同 时 通过 对 应 的 技术 手段 有 效 地 解决 了 这 类 问 
题 。 本 章 将 对 这 一 问题 进行 深度 技术 分 析 ， 并 给 出 解决 此 类 问题 的 技术 方案 。 


最 佳 实践 79: 深度 分 析 运 莒 商 劫持 的 技术 手段 


中 小 运营 商 的 网 络 现状 


随 着 互联 网 的 迅猛 发 展 ，P2P、 语 音 及 视频 等 流量 不 断 增 加 ， 预 计 互 联网 流量 将 以 每 年 32% 的 速度 增长 ， 对 网 络 带 宽 的 需求 不 断 增 加 。 而 带宽 扩容 费用 非常 昂贵 ， 特 别 是 对 于 中 小 运营 商 ， 每 月 要 付 大 
量 的 带宽 租用 费 。 


而 一 些 运 营 商 网 络 用 户 访问 时 延 大 、 响 应 慢 的 问题 依旧 很 难 及 时 和 解决， 用户 体验 越 来 越 差 ， 另 外， 内 容 资源 分 布 不 均衡 ， 用 户 跨 网 络 的 内 容 访问 也 产生 高 额 的 网 间 结算 费 


ay 


如 何 能 在 减少 带宽 投资 的 情况 下 ， 保 证 用 户 的 上 网 体验 ， 对 运营 商 来 说 是 一 个 难题 。 特 别 是 中 小 型 运营 商 ， 在 面 对 像 电信 、 联 通 这 样 的 对 手 时 ， 他 们 在 提供 互联 网 业务 时 ， 需 要 支付 给 电信 运营 商 的 
额 结算 成 本 ， 大 约 占 宽带 收入 的 40% 以 上 。 


运营 商 的 动 持 方法 ， 总 结 起 来 主要 有 以 下 2 类 。 
“ 基于 下 载 文件 的 缓存 劫持 。 
于 页 面 的 iframe 广 告 嵌 入 动 持 。 


“ 基于 伪造 DNS 响应 的 劫持 。 


基于 下 载 文件 的 缓存 劫持 


2012 年 11 月 6 日 某 游戏 技术 封 测 期 间 ， 部 分 玩家 下 载 到 老 版 本 游戏 客户 端 ， 导 致 无 法 正常 进入 游戏 。 用 户 给 我 们 提供 的 截图 如 图 15-1 所 示 。 


xe SAO BRO IRD RAW — 


新 建安 全 下 载 


未 检测 到 该 链接 的 危险 信息 


TER rets 
ZR. GeneClient. exe 
5H SHE 1057 Mb 


GERETS > 


图 15-1 游戏 玩家 被 引导 到 非法 资源 IP 


从 用 户 给 的 截图 中 ， 我 们 分 析出 被 引导 的 下 载 节点 101.44.1.12 为 非 我 司 服务 器 IP 地 址 。 进 一 步 使 用 网 络 分 析 技 术 (文件 : Gameclient.pcap) 可 以 看 到 图 15-2 所 示 的 信息 。 


Time inati Protocol — Length Info 
321 2012-11-06 16:30:56.053484 .168.1. .96.39. TCP 66 3631 > 80 [SYN] Seq-220240901 win-65535 Len=0 M55-1460 WS-8 SACK PET| 
323 2012-11-06 16:30:56.071114 .96. 39, .168.1, TCP 66 80 > 3631 [SYN, ACK] 5eq-2265410538 Ack-220240902 win-5840 Len-( MS 
324 2012-11-06 16:30:56.071148 : VIS .96.39. TCP 54 3631 > 80 [AOK] Seq=220240902 Ack-2265410539 win-262144 Len=0 
2012-11-06 16:30:56.071449 .168.1. .96.39. HTTP 624 GET /wz/997/0.6.2161.150-0.6.2162.151/bin/Gameclient.exe?id-12313 H1 
2012-11-06 :30:56.081360 .96.39. Y a i HTTP 198 urTP/1.1 302 Found 
328 2012-11-06 :30:56.081412 S ad -96.39. TCP 54 3631 > 80 [ACK] Seq-220241472 Ack-22654106B4 Win=262000 Len=0 
329 2012-11-06 :30: 56.081764 = A7 P -96.39 . TCP 54 3631 > 80 [FIN, ACK] Seq=220241472 Ack-2265410684 Win=262000 Len=0 
330 2012-11-06 16:30:56.089614 .96.39. .168.1. TCP 54 80 > 3631 [ACK] 5eq-2265410539 Ack-2202414/2 Win-/168 Len=0 
321 2012-11-06 16:30:56.089642 í ak. .96.39. TCP 54 [TCP Dup ACK 32941] 3631 > 80 [ACK] 5eq-220241473 ACk-2265410684 wir 
(332)2012-11-06 16:30:56.089662 .96. 39. .168.1. HTTP 635 [TCP Retransmission] HTTP/1.1 302 Found (text/html) 
333 2012-11-06 16:30:56.089684 .96.39. .168.1. TCP 54 80 > 3631 [FIN, ACK] 5eq-2265411120 Ack-220241472 win-7168 Len=0 
338 2012-11-06 16:30:56.097378 96.39. .168.1. TCP 54 80 > 3631 [ACK] 5eq-2265411121 Ack-220241473 win-7168 Len=0 
6420 2012-11-06 16:30:53.089626 .96.39. B A: HTTP 490 [TCP Retransmission] Continuation or non-HTTP traffic (text/html) 
13747 2012-11-06 16:31:05.089441 .96.39. 5 Am HTTP 490 [TCP Retransmission] Continuation or non-HTTP traffic (text/html) 
14540 2012-11-06 16:31:17.086453 .96.39. à sL: HTTP 490 [TCP Retransmission] Continuation or non-HTTP traffic (text/html) 


图 15-2 异常 下 载 的 抓 包 分 析 


由 图 15-2 可 以 看 到 ， 对 于 玩家 的 请 求 frame 325， 它 收 到 了 图 中 标号 分 别 为 @@ 和 仿 的 2 个 响应 。 


图 中 有 2 个 地 方 是 需要 认真 分 析 的 。 


“ 在 HTTP 的 模型 中 ， 请 求 和 应 答 是 成 对 出 现 的 ， 即 对 应 一 个 HTTP 请 求 ， 只 能 有 一 个 HTTP 响 应 体 。 如 能 排除 网 络 丢 包 ( 如 拥塞 控制 、 防 火 墙 等 ) 问题 导致 的 重 传 ， 则 一 个 HTTP 请 求 引 起 2 个 HTTP 响 应 


的 情况 就 是 劫持 。 


- frame 327 的 响应 和 frame 325 的 请 求 之 间 的 时 间 差 为 0.009911s， 明 显 小 于 frame 323 和 frame 323 之 间 的 0.017630s 的 正常 RTT 值 。 这 说 明 ，frame 327 的 响应 很 可 能 并 非 来 自 于 这 个 数据 包 所 标 称 的 真实 的 服 


务 器 (真实 服务 器 上 此 时 可 能 还 没有 收 到 请 求 呢 ) o 


从 这 2 个 初步 分 析 来 看 存在 异常 ， 下 面 来 看 看 是 不 是 网 络 原因 导致 的 重 传 呢 ? 首先 看 看 客户 端的 请 求 中 是 否 有 异常 。 如 图 15-3 所 示 ， 浏 览 器 请 求 正常 。 


Accept: application/x-shockwave-flash. image/gif. image/jpeg. image/pjpeg. image/pjpeg. application/vnd.ms-excel, application/vnd.ms-powerpoint 
Accept-Language: zh-cn\r\n 
User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; windows NT 5.1; Trident/4.0; InfoPath. 3)\r\n 


Accept-Encoding: gzip, deflate\r\n 

Host: wz.dorado.sdo.comr^n 

Connection: Keep-Alive\r\n 

Cookie: sdo beacon id2115.238.227.155.1351586344260.9; SNDA ADRefererSystem MachineTicketez3be52b7f-d796-4c85-bcbe-59f07c71d79fXr^n 
Mn 


图 15-3 浏览 器 正常 请 求 


再 来 看 看 图 15-2 中 标号 为 @ 的 HTTP 响 应 内 容 ， 如 图 15-4 所 示 。 


s Internet Protocol Version 4, Src: 180.96.39.19 (180.96.39.19), Dst: 192.168.1.110 (192.168.1.110 
- Transmission Control Protocol, Src Port: 80 (80), Dst Port: 3631 (3631), Seq: 2265410539, Ack: 220241472, Len: 144 

Source port: 80 (80) 
Destination port: 3631 (3631) 
[stream index: 1] 
Sequence number: 2265410539 
[Next sequence number; 2265410683] 
Acknowledgment number: 220241472 
Header lenqth: 20 bytes 

u Flags: 0x519 (FIN, PSH, ACK, NS, Reserved) 
Window size value: 8192 
[Calculated window size: 2097152] 
[Window size scaling factor: 256] 

© Checksum: 0xf6b7 [validation disabled] 

由 [SEQ/ACK analysis] 

Hypertext Transfer Protocol 

+ HTTP/1.1 302 Found\r\n € 
Connection: close\r\n 
Location: http://101.44.1.12/down10ad/1/748393/22018322/5/exe/200/23/1351587261384. 791/GameClient.exeXrXn (2) 
\ ràn 


15-4 ”非法 支持 的 响应 


通过 图 15-4 可 以 看 到 这 个 响应 的 IP 层 和 TCP 层 没有 任何 异常 ， 完 全 符合 TCP 协 议 中 有 关 IP 信 息 、TCP 端 口 信息 、 序 列 号 (Sequence) 、 确 认 号 (Acknowledgment number) 的 规定 。 但 在 HTTP 响 应 
内 容 中 ， 只 有 简单 的 3 个 信息 : 状态 码 @、Connection、 新 的 Location@，。 


再 来 看 看 图 15-2 中 第 二 个 HTTP 响 应 全 的 内 容 ， 如 图 15-5 所 示 。 


通过 对 比 图 15-5 和 图 15-4 可 以 知道 ， 这 并 不 是 正常 网 络 原因 导致 的 重 传 ， 这 2 个 响应 的 内 容 完全 不 同 。 真 实 服务 器 的 响应 头 部 信息 中 ， 是 正常 的 完整 的 HTTP 字 段 ， 也 使 用 正确 的 Location 引 导 用 户 到 我 
们 的 服务 器 上 。 


& Internet Protocol Version 4, Src: 180.96.39.19 (180.96.39.19), Dst: 192.168.1.110 (192.168.1.110 
E Transmission Control Protocol, Src Port: 80 (80), Dst Port: 3631 (3631), Seq: 2265410539, Ack: 220241472, Len: 581 
Source port: 80 (80) 
Destination port: 3631 (36031) 
[Stream index: 1] 
Sequence number: 2265410539 
[Next sequence number: 2265411120] 
Acknowledgment number: 220241472 
Header length: 20 bytes 
Flags: Ox018 (PSH, ACK) 
window size value: 28 
[Calculated window size: 7168] 
[window size scaling factor: 256] 
Checksum: Oxaf2b [validation disabled] 
* [SEQ/ACK analysis] 
Hypertext Transfer Protocol 
* HTTP/1.1 302 Found\r\n € 
Date: Tue, 06 Nov 2012 08:30:57 GMT\ r\n 
Server: Apache/2.2.19 (Unix) mod ss1/2.2.19 OpenSSL /0.9.8e-fips-rhel5 DAV/2\r\n 
Location: http://115.2385.4m899 w7/99//0.6.2161.150-0.6.2162.151/bin/GameClient.exe?id-12313Xr^n [2] 
EB Content-Length: 266\r\n 
Connection: close\r\n 
Content-Type: text/html; charset=iso-8859-1\r\n 
\r\n 


图 15-5 真实 服务 器 响应 


通过 以 上 的 综合 分 析 ， 可 以 看 出 ， 运 营 商 劫持 的 方法 是 : 使 用 旁 路 设备 在 近 用 户 端 通过 分 析 HTTP 请 求 ， 获 取 感 兴趣 的 流量 (一 般 以 .zip，.rar，.exe，.patch，.mp3，.mp4，.flv 等 文件 下 载 、 音 视频 为 
主 ) ， 然 后 引导 到 自 有 服务 器 上 。 


这 样 做 有 以 下 的 几 个 特点 。 

“ 旁 路 设备 部 署 方便 ， 不 需要 改变 现 有 网 络 结构 。 只 需要 在 近 用 户 端的 路 由 器 上 部 署 端口 镜像 即 可 。 

“ 旁 路 设备 不 产生 单 点 故障 ， 故 障 时 不 会 导致 用 户 上 网 异常 。 如 串联 到 网 络 中 ， 则 可 能 因 动 持 设备 故障 到 而 导致 大 面积 用 户 无 法 上 网 而 产生 投诉 。 
“ 外 网 流量 内 网 化 ， 分 担 出 口 带宽 压力 ， 节 约 带宽 扩容 费用 。 

“ 支持 移动 应 用 缓存 ， 将 大 量 的 移动 应 用 下 载 到 本 地 ， 对 于 现今 移动 应 用 流量 快速 增长 的 运营 商 网 络 来 说 ， 可 以 极 大 节省 下 载 费 用 。 

“ 动 持 功 能 可 以 随时 关闭 ， 以 应 对 政策 因素 等 。 

这 种 支持 设备 的 物理 部 署 节点 可 以 包括 如 下 几 个 。 

“ 部 署 在 城 域 网 ， 降 低 运 营 商 网 间 结 算 流量 。 

“ 部 署 在 WLAN 网 络 中 心 。 

“ 部 署 在 小 区 宽带 网 络 出 口 。 


“ 部 署 在 集团 客户 网 络 出 口 ， 降 低 集团 客户 对 网 络 出 口 带 宽 的 需求 。 


这 种 劫持 带 来 的 问题 是 : 如 真实 服务 器 上 的 文件 发 生变 化 ， 比 如 版 本 更 新 等 ， 则 被 运营 商 劫持 后 可 能 导致 用 户 下 载 到 老 的 版 本 客户 端 。 这 恰好 是 引发 本 案例 的 因素 。 


那么 运营 商 为 什么 进行 动 持 呢 ? 


所 谓 “ 无 利 不 起 早 ”， 运 营 商 通过 网 络 劫持 ， 可 以 极 大 地 节省 互联 网 网 间 结 算 带 来 的 巨大 开支 。 


间 结 算 办 法 (http://www.miit.gov.cn/n11293472/n11293832/n11294057/n11302390/11656117.html) ，“ 第 二 章 结算 原则 “第 四 条 中 国电 
间 互 联 时 ， 应 依据 网 间 数 据 通信 速率 ， 按 照 不 高 于 本 
(元 /月 ) = 


根据 中 华人 民 共 和 国 工信部 颁布 的 互联 网 交换 中 心 
六 集团 公司 、 中 国 网 络 通信 集团 公司 、 中 国教 育 和 科研 计算 机 网 之 外 的 互联 单位 ， 在 与 中 国电 信和 集团 公司 、 中 国 网 络 通信 集团 公司 进行 互联 网 骨干 网 
。 非 经 营 性 互联 单位 结算 费用 标准 减 半 。” 和 “附录 : 互联 网 交换 中 心 结算 标准 结算 费 


办 法 确定 的 标准 ( 见 附录 ) ， 向 中 国电 信和 集团 公司 、 中 国 网 络 通 信 集 团 公司 支付 结算 费 
1000 (元 /Mbps 月 ) x 结算 速率 (Mbps) ”可 以 看 出 ， 如 通过 动 持 加 运营 商 级 别 的 缓存 等 技术 ， 使 得 运营 商 间 交 换 带 宽 减 少 ， 则 可 以 明显 节省 运营 商 互 联网 网 间 间 结算 的 费用 。 


基于 页 面 的 iframe 广 告 嵌入 动 持 


在 我 们 运 维 网 站 服务 器 的 过 程 中 ， 会 时 常 看 到 


于 页 面 的 iframe 广 告 嵌入 劫持。 和 本 最 佳 实践 中 提 到 的 上 一 个 动 持 具有 如 下 的 区 别 。 


反馈 在 我 们 页 面 上 的 第 三 方 的 广告 ， 但 实际 上 ， 在 我 们 的 Web 站 点 上 ， 并 没有 部 署 这 样 的 代码 。 这 是 运营 商 在 Web 页 面 层 次 做 的 另 一 种 劫持 技术 : 基 


“ 目标 不 同 。 这 种 劫持 是 针对 用 户主 动 访问 的 Web 网 站 页 面 ， 如 财经 类 网 站 、 电 子 商 务 网 站 等 。 基 于 下 载 文件 的 缓存 劫持 一 般 是 针对 软件 、 客 户 端 、 补 本 和 音 视 频 等 。 


“ 受益 模式 不 同 。 这 种 劫持 通过 在 网 页 中 插入 有 针对 性 的 广告 ， 直 接 向 广告 主 收取 广告 费用 。 基 于 下 载 文件 的 缓存 劫持 通过 节省 网 间 结 算 带 宽 来 获取 利益 。 


基于 页 面 的 iframe 广 告 嵌入 动 持 的 数据 流程 如 下 。 


1) 用 户 浏览 器 和 真实 服务 器 经 过 TCP 三 次 握手 建立 连接 。 


2) 用 户 浏览 器 发 送 HTTP 请 求 ， 例 如 请 求 http://www.sdo.com/index.htm。 


iframe 原 URL、 同 时 加 入 广告 js 代码 。 图 15-6 是 一 个 实际 的 支持 案例 中 HTTP 响 应 的 内 容 。 


D 


户 端的 旁 路 动 持 程序 先 于 真实 服务 器 发 回 HTTP 响 应 。HTTP 响 应 中 ， 使 用 全 


3) 近 


«html»4head»«title»«/title»«style type-"text/css"»body {margin: ©@px;,padding: 
Opx;overflow:hidden;)«/style»«/head»«body»«iframe id-"fulliframe" name-"fulliframe" src= 
width="100%" height-"100e$" marginheight-"0" manrginwidth-"e" frameborder-"0"»«/iframe»«script 
language-"javascript" type-'"text/javascript"»frames[0].location-window.location;function 
c()(try(vanr f-frames[0];var 

d-f.document; (function(s)()])(d.readyState);if(d&&('complete'-zd.readyState))(document.title-d 
.title?d.title:'';jelse[setTimeout('c()',10);)]catch(ex)(try(document.domainsdocument.domain. 


replace(/^W4V./,'');c();)catch(ex) ()));c();«/script»«script id-"poet ctrl o" 
srcz"http://60.190 skeen pagead/ads.js?umask-25&amp;interval-1800&amp;vask-2591642859&amp;uid 
-200323885&amp;pid-72059031833123798&amp;o url-www.wmwee . COm/ &amp ; aname -29990023&amp ; ic-&amp; v 
hz232abfb5,20 |00023201,10|00023123,70 |00023119,20 |8c9021d2,20 |00007491, 30 |00025 2259:00 | 000074 
47,60&amp;al-O0&amp;ipc type-CTM&amp;ipc nid-e" language-"javascript" 
type-"text/javascript"»«/script» 

«/ body» «/html» 


15-6 支持 的 HTTP 响 应 内 容 


户 端 显示 的 即 是 加 了 运营 商 广告 的 页 面 。 


4) 用 户 浏览 器 再 次 请 求 原 URL， 同 时 请 求 广 告 js 代码 。 此 时 ， 


基于 伪造 DNS 响 应 的 支持 


伪造 DNS 响 应 的 动 持 又 称 域名 动 持 ， 是 指 在 动 持 的 网 络 范 围 内 拦截 域名 解析 的 请 求 ， 分 析 请 求 的 域名 ， 把 审查 范围 以 外 的 请 求 放行 ， 否 则 返回 假 的 IP 地 址 或 者 什么 都 不 做 使 请 求 失去 响应 ， 其 效果 就 是 
对 特定 的 网 络 不 能 访问 或 访问 的 是 假 网 址 。 


DNS 请 求 ， 默 认 情 况 下 使 用 UDP 进 行 通信 ， 并 和 且 在 客户 端 和 本 地 DNS 之 间 没 有 任何 的 安全 校 验 机 制 。DNS 的 这 种 特点 ， 就 导致 了 它 容 易 被 运营 商 恶 意 利用 。 某 种 极端 情况 下 ， 用 户 在 访 
问 www.google.com 等 知名 网 站 时 甚至 被 引导 到 运营 商 的 合作 伙伴 网 站 。 
在 某 些 地 区 的 用 户 在 成 功 连 接 宽 带 后 ， 首 次 打开 任何 页 面 都 指向 1ISP 提 供 的 “电信 互联 星空 ”、 “网通 黄 页 广告 ”等 内 容 页 面 。 这 些 就 属于 DNS 劫持 。 
基于 伪造 DNS 响 应 的 动 持 ， 因 其 影响 范围 较 大 且 容 易 被 用 户 识别 和 投诉 ， 运 营 商 用 这 种 方案 的 越 来 越 少 ， 在 近年 中 发 生 的 次 数 也 呈 下 降 趋势 。 
网 卡 混杂 模式 与 raw socket 技 术 
在 本 章 中 ， 我 们 看 到 基于 下 载 文 件 的 缓存 支持 和 基于 页 面 的 iframe 广 告 谋 入 动 持 ， 都 采用 了 旁 路 模式 。 这 种 模式 情况 下 ， 通 过 端口 镜像 技术 ， 把 用 户 的 访问 流量 复制 一 份 引 导 到 | 动 持 服务 器 上 ， 动 持 服 


务 器 分 析 数 据 流 后 冒充 真实 服务 器 发 送 HTTP 响 应 给 用 户 ， 以 达到 动 持 的 效果 。 这 里 面 涉及 一 个 问题 ， 动 持 服务 器 上 收 到 的 数据 帧 的 目的 MAC 地 址 并 不 是 自己 的 地 址 ， 那 么 这 个 服务 器 怎么 能 够 处 理 这 些 数 
据 帧 呢 (默认 网 卡 只 接收 和 处 理 目的 MAC 地 址 为 本 机 或 者 广播 MAC 地 址 的 数据 帧 ) ? 另外 ， 这 个 服务 器 又 是 如 何 把 伪造 的 数据 帧 发 送 到 网 络 上 的 呢 ? 


这 其 中 涉及 以 下 2 个 技术 。 
网 卡 混杂 模式 : 使 动 持 程序 服务 器 能 够 接收 目的 MAC 地 址 非 自己 地 址 的 数据 帧 的 问题 。 


t raw socket. (原始 套 接 字 ) 技术 : 使 劫持 程序 服务 器 能 够 发 送 伪造 的 数据 帧 (这 些 数据 帧 的 IP 头 部 源 地 址 是 被 伪造 的 真实 服务 器 的 IP) 。 


到 的 源 代码 如 下 : 


如 下 程序 来 模拟 基于 页 面 的 iframe 广 告 嵌入 支持 技术 。 使 


为 了 对 运营 商 动 持 问题 进行 测试 ， 使 


#!/usr/bin/perl 

use strict; 

use warnings; 

use Net::Pcap; 

use NetPacket::Ethernet; 

use NetPacket::IP; 

use NetPacket::TCP; 

use Socket; 

# 使 用 该 链接 下 载 Net : :RawSock 模 块 http://www.hsc.fr\ 


#/ressources/outils/rawsock/download/Net-RawSock-1.0.tar.gz 
use Net::RawSock; 


my S$err; 

my $dev = SARGV[O]; # 定 义 需要 抓 取 的 网 络 端口 
# 定 义 返回 给 用 户 的 动 持 内 容 

my $html = 


"<HTML><HEAD><meta http-equiv-'Content-Type' content-'text/html; charset=utf-8'/><TITLE>test</TITLE><script type-'text/javascript' src-'http://xx.yy.zz.88/jquery-1.7.2.js'»«/sc 


# 判 断定 义 的 网 络 端口 存在 

unless ( defined $dev ) ( 
$dev = Net::Pcap::lookupdev( \$err ); 
if ( defined Serr ) ( 


die 'Unable to determine network device for monitoring - ', $err; 
} 
} 
# 判 断定 义 的 网 络 端口 属性 
my ( $address, $netmask ); 
if ( Net::Pcap::lookupnet( $dev, M$address, \$netmask, M$err ) ) ( 
die 'Unable to look up device information for ', $dev, ' - ', $err; 
} 
my $object; 
# 在 定义 的 端口 上 抓 包 
# 抓 的 每 个 包 最 大 为 65535 字 节 
# 网 卡 置 为 混杂 模式 
$object = Net::Pcap::open live( $dev, 65535, 1, 0, \$err ); 
unless ( defined $object ) { 
die 'Unable to create packet capture on device ', $dev, ' - ', $err; 
} 
my $filter; 
# 定 义 初步 的 过 滤 规 则 ， 该 规则 为 tcpdump 格 式 
# 过 滤 规 则 内 容 为 :tcp 目的 端口 为 80， 且 tcp 的 数据 长 度 为 非 0 
Net::Pcap::compile( $object, M$filter, '(tcp dst port 80 and (((ip[2:2] - ((ip[0]&0xf)««2)) - ((tcp[12]&0xf0)>>2)) != 0))', 0, $netmask 


&& die 'Unable to compile packet capture filter'; 
Net::Pcap::setfilter( $object, $filter ) 
&& die 'Unable to set packet capture filter'; 


# 设 置 抓 包 的 回调 函数 ， 并 初始 化 抓 包 循环 
Net::Pcap::loop( $object, -1, N&process packets, ra'i 
|| die 'Unable to perform packet capture'; 
Net::Pcap: :close ($object) ; 
# 每 个 包 处 理 逻 辑 
sub process packets { 
my ( $user data, $header, $packet ) = 6 ; 
VARRO RUBER (raw socket) HRUP AR Etherneti, 获得 Ethernet 数 据 
my $ether data = NetPacket: :Ethernet::Strip ($packet) ; 
# 解 析 tcp/ip 数 据 
my $ip in = NetPacket::IP->decode (Sether data); 
my $tcp in = NetPacket::TCP->decode( $ip->{'data'} ); 
# 对 tcp 数 据 进行 匹配 ， 我 们 感 兴趣 的 是 用 户 的 HTTP 请 求 
if ( Stcp in-»('data') =~ m /GET \/ HTTP/ ) ( 
ENL: 组 装 raw socket 需 要 的 ip 头 部 、tcp 头 部 和 tcp 数 据 
# 创 建 ip 
my $ip out = NetPacket::IP-»decode(''); 
# 初 始 化 ip 
$ip out->{ver} = 
$ip out->{hlen} 


$ip out->{tos} 
$ip out->{id} Oxldld; 
0x5a; 


$ip out-»(src ip) 
$ip out-»(dest ip) 
$ip out-»([flags) 
# 创 建 tecp 
my $tcp out = NetPacket: : TCP-»decode (' ') ; 
my $htmllength = length ($html) ; 
# 初 始 化 tcp 
$tcp out->{hlen} 
$tcp out->{winsize} 
$tcp out-»(src port) 
$tcp out-»(dest port) 
$tcp out-»[seqnum) 
$tcp out-»[acknum) 
Stcp out-»(flags]) 
$tcp out-»(data] 


# 组 装 ip 包 
$ip out->{proto} = 6; 
$ip out->{data} $tcp_out->encode ($ip out); 
my Spkt = $ip out->encode; 


$ip->{'dest ip'); 
$ip->{'src ip'); 


{ 

{ 

{ 

E { 
$ip_out->{tt1} 

{ 

{ 
{ 2; 


5; 

0x8e30; 

$tcp-»['dest port'); 

$tcp-»('src port'); 

$tcp->{'acknum' }; 

$tcp-»('seqnum') + ( $ip->{'len'} - ( $ip->{'hlen'} + $tcp->{'hlen'} ) * 4 ); 
ACK | PSH | FIN; 


# 提 交 给 RawSock， 增 加 Ethernet 头 部 后 发 送 到 网 路 上 
Net::RawSock::write ip($pkt); 


通过 以 上 程序 ， 可 以 看 到 ， 使 用 网 卡 的 混杂 模式 ， 与 raw socket 技 术 结合 ， 可 以 构造 任何 TCP/IP 数 据 。 在 业务 运 维 中 ,使 


最 佳 实践 80: 在 关键 文件 系统 部 署 HTTPS 的 实战 


raw socket 技 术 ， 还 可 以 实现 


) 


"HTTP/1.1 200 OK\r\n" . "Content-Length: $htmllength" . "\r\nConnection: close\r\nContent-Type:text/html;charset=utf-8\r\n\r\n" . "$html"; 


定义 的 网 络 数 据 采 样 和 安全 监控 等 功能 。 


在 本 章 “ 最 佳 实践 79: 深度 分 析 运 营 商 动 持 的 技术 手段 ”中 ， 可 以 看 到 ， 运 营 商 能 够 对 HTTP 请 求 进行 动 持 是 因为 HTTP 协 议 本 身 没 有 任何 加 密 措施 ， 导 致 运营 商 可 以 分 析 到 
行规 则 匹配 。 针 对 这 一 原因 ， 可 以 使 用 SSL 对 HTTP 请 求 和 响应 进行 加 密 ， 也 就 是 在 关键 文件 系统 上 部 署 HTTPS。 所 谓 的 关键 文件 系统 ， 在 游戏 领域 中 ， 主 要 指 的 是 补丁 文件 列表 、 客 户 端 版 本 与 MD5 校 验 码 


等 。 这 些 文件 对 游戏 客户 端的 下 载 完整 性 校 验 、 游 戏 客户 端的 补丁 更 新 起 到 关键 作用 。 


HTTPS 的 工作 原理 是 使 用 在 SSL 握 手 过 程 中 的 非 对称 算 法 计算 出 本 次 会 话 的 对 称 密 铀 ， 然 后 客户 端 和 服务 器 端 使 用 该 对 称 密 铀 算法 进行 加 密 和 解密 。 这 个 过 


HTTPS 证 书 的 获取 方法 


D 


1) 在 本 地 Linux 服 务 器 上 生成 私 钥 (Private Key) 和 证 书 请 求 (Certificate Request) ， 方 法 如 


15-7 所 示 。 


户 HTTP 请 求 的 内 容 从 而 进 


程 可 以 有 效 防止 “中 间 人 ”攻击 。 


[rootülocalhost ~]# openssl req -new -nodes  -keyout xufeng.info.key -out xufeng.info.csr 
Generating a 2048 bit RSA private key 


You are about to be asked to enter information that will be incorporated 
into your certificate request. 

what you are about to enter is what is called a Distinguished Name or a DN. 
There are quite a few fields but you can leave some blank 

For some fields there will be a default value, 

If you enter '.', the field will be left blank. 


State or Province Name (full name) []:Shanghai 
Locality Name (eg, city) [Default City]:Shanghai 
Organization Name (eg, any) [Default pend 043 xufeng.info 


BEERTA, 必须 和 网 站 域名 一 至 
:xufengnjuG 


Please enter the following 'extra' attributes 
to be sent with your certificate request 

A challenge password []: 

An optional company name []: 


图 15-7 生成 私 钥 和 证 书 请 求 
Qua 


私 钥 xufenginfo.key 是 本 机 需要 保留 的 最 重要 的 文件 ， 不 能 泄露 。 


2) 把 xufeng.info.csr 提 交 给 证 书 颁发 机 构 ， 让 其 进行 签名 。 


以 StartCom (https://startssl.com) 提供 的 证 书签 名 服务 为 例 ， 首 先 需要 验证 域名 的 所 有 权 ， 如 图 15-8 所 示 。 


Tool Box Certificates Wizard Validations Wizard @ 


Select Validation 
e Select the type and attribute of validation you'd like to perform. 
+ Piease note that you might need to nave Instant access to your email account(s) or cocuments In Image format ready. 


& Domain Validation e 


© Email validation 
© Persona! Identity Validation 


€ Organization Validation 


Continue 


15-8 选择 验证 方法 〈 域 名 验证 ) 


输入 域名 (域名 必须 和 证 书 请 求 中 的 Common Name 完 全 一 致 ) ， 如 图 15-9 所 示 。 


Domain Validation 


e Enter the domain name you want to validate. 


domain. xufeng.info 


Continue 


159 输入 域名 


域名 输入 完成 后 ，StartCom 会 查询 该 域名 的 whois 信 息 ， 获 取 该 域名 的 管理 员 信息 ， 由 管理 员 上 邮箱 进行 验证 ， 如 图 15-10 所 示 。 


Domain Validation 


domain: xuteng.info 
Select one of the following email to receive the Verification code. and click "Send Verification Code". 
Verification Emai: | &xufengnju 153.com 
(Opostmastergxxufeng.info 
(Ohostmastergxufeng.info 


Əwebmaster@xufeng.info 


Send Verification Code 


Verification code: 


Validation 


验证 完成 后 ， 即 可 提交 证 书 请 求 ，StartCom 签 名 完成 后 即 可 在 该 网 站 下 载 证 书 。 


图 15-10 选择 验证 邮箱 


Nginx 支 持 HTTPS 的 按照 方式 


Nginx 安 装 过 程 如 下 : 


# wget http://nginx.org/download/nginx-1.8.1.tar.gz 
# tar zxf nginx-1.8.1.tar.gz 
# cd nginx-1.8.1 
4 ./configure --prefix-/usr/local/nginx --with-http ssl module --with-pcre --with-http stub status module 
Configuration summar: 
* using system PCRE library 
* using system OpenSSL library 
* md5: using OpenSSL library 
* shal: using OpenSSL library 
* using system zlib library 


# make 
# make install 


Nginx 配 置 文件 示例 


一 个 实际 使 用 中 的 HTTPS 配 置 代码 如 下 : 


server ( 
listen 443 ssl; 
server name xufeng.info; # 指 定 域名 ， 必 须 和 Common Name—$X 


ssl certificate xufeng.info.crt; # 指 定 证 书 文件 
ssl certificate key xufeng.info.key; # 指 定 私 钥 文件 


ssl session cache shared:SSL:1m; # 启 用 ssl_session_cache 


ssl session timeout 5m; # 指 定 ssl 会 话 超时 时 间 


Ssl ciphers  HIGH:!aNULL:!MD5; # 指 定 ss1 加 密 算法 
ssl prefer server ciphers on; 


access log logs/xufeng.info.access.log main; 
root /home/xufeng/download; 


本 章 小 结 


为 了 节省 网 间 结 算 带 宽 费 用 及 获取 定向 广告 的 利益 ， 运 营 商 往往 会 在 用 户 进行 网 络 通信 时 进行 劫持 。 本 章 首先 分 析 了 运营 商 劫持 的 不 同 种 类 ， 对 每 种 劫持 进行 了 深度 的 技术 分 析 ， 以 便 让 读者 深入 理解 
其 中 的 技术 细节 ， 在 面 对 这 种 问题 时 做 到 快速 定位 。 网 卡 混杂 模式 和 raw socket 技 术 ， 是 Linux 向 开发 者 提供 的 高 级 功能 ， 在 运营 商 劫持 的 技术 环境 中 有 所 使 用 。 这 2 种 技术 ， 同 时 可 以 被 系统 管理 员 合理 利 
用 ， 如 编写 自己 的 网 络 监控 程序 等 。 在 详细 分 析 了 运营 商 动 持 的 种 种 技术 手段 后 ， 我 们 给 出 了 终极 解决 方法 : 使 用 HTTPS 加 密 关 键 文 件 和 应 用 。 根 据 实践 中 使 用 HTTPS 的 经 验 ， 对 使 用 HTTPS 构 建安 全 站 点 
的 步骤 和 方法 进行 了 细致 阐述 ， 读 者 在 工作 中 配置 HTTPS 环 境 时 ， 可 以 予以 参考 。 


第 16 章 ”深度 实践 iptables 


每 一 个 运 维 人 员 或 许 都 使 用 过 iptables 进 行 网 络 安全 设 定 。 在 涉及 Linux 安 全 时 ， 或 许 也 会 第 一 时 间 想 起 iptables 这 个 强大 的 工具 。 毋 容 置疑 的 是 ，iptables 在 Linux 中 具有 重要 的 地 位 。 但 是 ， 我 们 是 否 对 这 个 
工具 有 深入 的 理解 呢 ? 我 们 是 否 知道 在 使 用 iptables 过 程 中 应 该 注意 的 事项 呢 ? 我 们 是 否 知道 iptables 除 了 在 安全 方面 的 作用 ， 它 还 可 以 实现 更 多 功能 呢 ? 本 章 针对 以 上 问题 ， 会 逐一 进行 详细 阐述 。 


本 章 从 一 些 使 用 iptables 的 经 典 案 例 开始 ， 对 iptables 的 状态 追踪 功能 进行 生动 细致 地 讲解 ， 对 在 iptables 中 限制 ICMP 协 议 时 的 注意 事项 进行 案例 讲解 ， 然 后 介绍 iptables 在 非 安 全 方面 的 功能 : 网 络 地 址 转 


换 。 最 后 ， 作 为 总 结 ， 我 们 以 一 张 图 来 展示 iptables 中 的 各 种 表 和 链 的 作用 时 间 。 


最 佳 实践 81 : 禁用 连接 追踪 
排查 连接 追踪 导致 的 故障 


1. 问 题 描 述 


虚拟 机 用 户 在 测试 网 络 连通 性 时 ， 发 现 到 某 主机 的 网 络 ping 时 断 时 续 ， 丢 包 严 时 


用 户 给 我 们 的 截图 如 图 16-1 所 示 。 用 户 使 用 的 测试 脚本 testping.sh 如 下 : 


看 。 同 时 ， 它 在 与 该 虚拟 机 同 网 段 的 Windows 物 理 机 上 测试 同一 IP 时 ， 未 发 生 该 问题 。 


#!/bin/bash 


host=$1 


2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 
2015/12/30 


图 16-1 ping & d 


图 


1cmp seq-l 
icmp seq-1 


icmp seq-i 
icmp seq-i 
lcmp seq-1 
1cmp seq-1 
icmp seq-1 
icmp seq-1 
icmp seq-1 
icmp seq-1 
icmp seq-i 
icmp seq-1 
icmp seq-l 


icmp seq-1 


time-23. 


time-23. 


time-23. 
t1me-23. 
time-23. 
time-23. 
t1me-23. 
time-23. 
time-23. 
time-23. 
ti1me-23. 
time-23. 
time-23. 


time-23. 


2 
2 
2 
3 
2 
2 
3 
3 
2 
4 
1 


n3 


wait-$2 


if [ -z $host ]; then 
echo "Usage: ^basename $0" [HOST]" 
exit 1 

fi 


if [ -z $wait ]; then 
wait-l 

3 

let index-1 

let lost-0 


while :; do 
result-' ping -W 1 -c 1 $host | grep 'bytes from '^ 
if [ $? -gt 0 ]; then 


echo -e "$lost/S$index - "date *'$Y/$m/$d $H:$M:$S'" - host $host is V033[0;31mdownWV033 [Om" 
let lost-$lost*l 

else 

echo -e "$lost/Sindex - ^date -*'$Y/$m/$d %H:%M:%S'` - host $host is \033[0;32mok\033[0m -`echo $result | cut -d ':' -f 2^" 
sleep $wait # avoid ping rain 

fu 

let index=$index+1 

done 


户 执行 以 下 的 命令 进行 测试 : 


sh testping.sh xxx.yyy.zzz.76 


2. 排 查 过 程 


在 收 到 保障 后 ， 我 们 首先 分 析 了 系统 日 志 /var/log/messages， 发 现在 对 应 的 时 间 点 ， 有 关于 nf_conntrack 的 报错 。 报 错 内 容 如 下 : 


Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: ratelimit: 877 callbacks suppressed 

Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: nf conntrack: table full, dropping packet. 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: nf conntrack: table full, dropping packet. 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: nf conntrack: table full, dropping packet. 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: nf conntrack: table full, dropping packet. 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: nf conntrack: table full, dropping packet. 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: nf conntrack: table full, dropping packet. 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: nf conntrack: table full, dropping packet. 
Dec 30 17:19:07 gcloud-whcq-ISpeaker-198 kernel: ^ ratelimit: 1356 callbacks suppressed 

Dec 30 17:19:07 gcloud-whcq-ISpeaker-198 kernel: nf conntrack: table full, dropping packet. 


进一步 使 用 以 下 2 个 命令 可 以 看 出 ， 服 务 器 上 的 已 有 连接 状态 追踪 条 目 数量 已 接近 于 我 们 配置 的 最 大 追踪 数 ， 进 一 步 确认 了 是 连接 状态 追踪 导致 的 问题 。 问 题 如 下 : 


# sysctl net.netfilter.nf conntrack max 
net.netfilter.nf conntrack max = 65536 
* sysctl net.netfilter.nf conntrack count 
net.netfilter.nf conntrack count = 65000 


分 析 连 接 追 踪 的 原理 


概要 来 说 ， 连 接 追 踪 系 统 在 一 个 内 存 数据 结构 中 记录 了 连接 的 状态 。 这 些 信息 包括 源 IP、 目 的 IP、 双 方 端口 号 (对 TCP 和 UDP) 、 协 议 类 型 、 状 态 和 超时 信息 等 。 有 了 这 些 信息 ， 我 们 可 以 设置 更 灵活 
的 过 滤 策略 。 


Os 


连接 追踪 系统 本 身 不 进行 任何 过 滤 动 作 ， 它 为 上 层 应 用 〈 如 iptables) 提供 了 基于 状态 的 过 滤 功 能 。 


我 们 看 一 个 实际 的 例子 (通过 cat/proc/net/nf_conntrack 命 令 可 以 查看 当前 连接 追踪 的 表 ) : 


ipv4 2 tcp 6 62 SYN SENT src-xxx.yyy.19.201 dst-87.240.131.117 sport-24943 dport-443 [UNREPLIED] src-87.240.131.117 dst-xxx.yyy.19.201 sport-443 dport-24943 mark-0 sec 
ipv4 2 tcp 6 30 SYN RECV src-106.38.214.126 dst-xxx.yyy.19.202 sport-18102 dport-6400 src-xxx.yyy.19.202 dst-106.38.214.126 sport-6400 dport-18102 mark-0 secmark-0 use 
ipv4 2 tcp 6 158007 ESTABLISHED src-xxx.yyy.19.201 dst-211.151.144.188 sport-48153 dport-80 src-211.151.144.188 dstexxx.yyy.19.201 sport-80 dport-48153 [ASSURED] mark- 


该 表 中 的 数据 提供 的 状态 信息 ， 可 以 使 用 iptables 的 state 模 块 进行 状态 匹配 ， 进 而 执行 一 定 的 过 滤 规 则 。 目 前 iptables 支 持 基于 以 下 4 种 状态 的 过 滤 规 则 : INVALID. ESTABLISHED, NEWRI] 
RELATED。 


启用 连接 追踪 后 ， 在 某 些 情 况 下 ， 在 设置 iptables 时 会 变 得 比较 简单 ， 如 图 16-2 所 示 。 


COSYN(srcport 50611, dstport 443) 一 -一 > 


<——— QSYN+ACK (srcport 443, dstport 50611) ——— 


(ACK (srcport 50611, dstport 443) ——————» 54.239.25.200 


我 们 的 服务 器 www.amazon.com 
172.30.16.1 


图 16-2 主动 访问 外 网 服务 的 TCP3 次 握手 图 


服务 器 需要 主动 访问 https://www.amazon.com 提 供 的 接口 时 ，3 次 握手 的 示意 图 如 


IR] 


16-2 所 示 。 在 基于 状态 进行 iptables 设 置 时 ， 使 用 如 下 的 规则 即 可 : 


iptables -A INPUT -p tcp -m state --state ESTABLISHED -j ACCEPT # rulel 
iptables -A OUTPUT -p tcp -j ACCEPT # rule2 


工作 流程 如 下 : 


1) 第 1 个 包 Q@ 匹 配 到 规则 rule2， 人 允许 。 


2) 第 2 个 包 @ 因 为 在 nf_conntrack 表 中 有 如 下 的 规则 匹配 到 rule1， 人 允许 : 


ipv4 2 6 431995 ESTABLISHED src-172.30.16.1 dst-54.239.25.200 sport-50611 dport-443 src-54.239.25.200 dst-172.30.16.1 sport-443 dport-50611 [ASSURED] mark-0 secmar 
P cp P p 


3) 第 3 个 包 @ 匹 配 到 规则 rule2， 人 允许 。 


禁用 连接 追踪 的 方法 


通过 以 上 分 析 ， 可 以 知道 在 大 量 网 络 传输 连接 的 时 候 ， 启 用 连接 追踪 可 能 导致 出 现 网 络 丢 包 、TCP 重 传 等 问题 ， 因 此 ， 需 要 在 适用 的 情况 下 禁用 连接 追踪 。 


禁用 连接 追踪 的 方法 ， 有 如 下 3 个 。 


1) 内 核 中 禁用 Netfilter Connection tracking support。 


编译 内 核 时 ， 依 次 进入 Networking support 一 Networking options 一 Network packet filtering framework (Netfilter) 一 Core Netfilter Configuration， 禁 用 的 方法 如 图 16-3 所 示 (取消 选中 


Netfilter connection tracking support) 。 


iM} Netfilter NFQUEUE over NFNETLINK interface 
*M- Netfilter LOG over HENEILIHNK interface 
[M) Netfilter Xtables support (required for ip tables) 
*** "tables combined modules *** 
-H- nfmark target and match support 
+e Xtables targets +*+ 
cM AUDIT target support 
<H> "CLASSIFY" target support 
E > IDLETIMER target support (NEW) 
TM> "LED" target support 
cM "MARE" target support 
© > "NF LOG" target support 
"NFQUEUE" target Support 
"RAIEESI" target support 
"TEE" = packet cloning to alternate deatination 
"TRACE" target support 
"SECMABE" target support 
"TCPHMZSZ" target support 
**"^ Etables matches +++ 
"addrtype" address type match support (NEW) 
"comment" match support 
"cpu" match support (NEW) 
"dccp" protocol match support 
"devgroup" match support (NEW) 
"dscp" and "tos" match support 
"eap" match support 
"hashlimit" match support 
"hl" hoplimit/IIL match support 
"lprange" address range match support 
"length" match support 


图 16-3 ”编译 内 核 时 禁用 连接 追踪 的 方法 


这 样 编译 出 来 的 内 核 ， 将 不 支持 连接 追踪 功能 ， 也 就 是 不 会 生成 以 下 的 ko 文件 了 : 


kernel/net/netfilter/nf conntrack.ko 
kernel/net/netfilter/nf conntrack proto dccp.ko 
kernel/net/netfilter/nf conntrack proto gre.ko 
kernel/net/netfilter/nf conntrack proto sctp.ko 
kernel/net/netfilter/nf conntrack proto udplite.ko 
kernel/net/netfilter/nf conntrack netlink.ko 
kernel/net/netfilter/nf conntrack amanda.ko 
kernel/net/netfilter/nf conntrack ftp.ko 
kernel/net/netfilter/nf conntrack h323.ko 
kernel/net/netfilter/nf conntrack irc.ko 
kernel/net/netfilter/nf conntrack broadcast.ko 


kernel/net/netfilter/nf conntrack netbios ns.ko 
kernel/net/netfilter/nf conntrack snmp.ko 
kernel/net/netfilter/nf conntrack pptp.ko 
kernel/net/netfilter/nf conntrack sane.ko 
kernel/net/netfilter/nf conntrack sip.ko 
kernel/net/netfilter/nf conntrack tftp.ko 
kernel/net/netfilter/xt conntrack.ko 
kernel/net/ipv4/netfilter/nf conntrack ipv4.ko 
kernel/net/ipv6/netfilter/nf conntrack ipv6.ko 


此 时 ， 在 iptables 中 不 能 再 使 用 NAT 功 能 ;同时 也 不 能 再 使 用 -m state 模 块 了 。 否 则 会 产生 以 下 报错 信息 : 


[rootélocalhost ~]# iptables -t nat -A POSTROUTING -o eth0 -s 172.30.4.0/24 -j SNAT --to 172.30.4.11 
iptables v1.4.7: can't initialize iptables table ‘nat': Table does not exist (do you need to insmod?) 
Perhaps iptables or your kernel needs to be upgraded. 

[rootélocalhost ~]# iptables -I INPUT -p tcp -m state --state NEW -j ACCEPT 
iptables: No chain/target/match by that name. 


2) 在 iptables 中 ， 禁 用 -m state 模 块 ， 同 时 在 filter 表 的 INPUT 链 中 显 式 地 指定 ACCEPT。 


以 图 16-2 为 例 ， 在 满足 这 样 的 访问 需求 时 ， 我 们 使 用 的 iptables 必 须 修改 为 以 下 内 容 : 


iptables -A INPUT -p tcp -s 54.239.25.200 --sport 443 -j ACCEPT # rulel 
iptables -A OUTPUT -p tcp -j ACCEPT # rule2 


同时 ， 在 /etc/init.d/iptables 中 ， 修 改 如 下 内 容 : 


修改 前 : NF MODULES COMMON-(x tables nf nat nf conntrack) # Used by netfilter v4 and v6 
修改 后 : NF MODULES COMMON-(x tables) # Used by netfilter v4 and v6 


3) 在 iptables 中 ， 使 用 raw 表 ， 指 定 NOTRACK: 


iptables -t raw -A PREROUTING -p tcp -j NOTRACK 

iptables -t raw -A OUTPUT -p tcp -j NOTRACK 

iptables -A INPUT -p tcp -s 54.239.25.200 --sport 443 -j ACCEPT # rulel 
iptables -A OUTPUT -p tcp -j ACCEPT # rule2 


在 以 上 的 3 种 方法 中 ， 根 据 自己 的 业务 情况 ， 可 以 参考 实施 其 中 一 种 。 
Oza 
1) 对 于 使 用 NAT 功 能 的 服务 器 来 说 ， 不 能 禁用 连接 追踪 。 


2) 对 于 FTP 的 被 动 模式 ， 在 FTP 服 务 器 上 需要 显 式 地 打开 需要 进行 数据 传输 的 端口 范围 。 关 于 主动 FTP 和 被 动 FTP 的 内 容 ， 本 书 不 再 黄 述 。 


在 配置 了 NAT 的 服务 器 上 ， 不 能 禁用 连接 追踪 ， 此 时 可 以 使 用 如 下 方法 来 提高 连接 追踪 的 条 目 上 限 。 在 /etc/sysctlconf 中 ， 新 增 如 下 内 容 : 


net.nf conntrack max = 524288 
net.netfilter.nf conntrack max = 524288 


新 增 配置 文件 /etc/modprobe.d/netfilter.conf 内 容 如 下 : 


options nf conntrack hashsize-131072 


执行 以 下 命令 使 其 生效 : 


/etc/init.d/iptables restart # 重 新 加 载 连接 追踪 模块 ， 同 时 更 新 nf_conntrack 配 置 hashsize 
sysctl -p # 使 得 修改 的 sysct1.conf 中 nf_conntrack 上 线 提高 


系统 nf_conntrack_max 的 值 ， 在 未 指定 时 ， 根 据 以 下 公式 计算 得 出 : 


nf conntrack max = nf conntrack buckets * 4 


系统 nf_ conntrack_buckets 的 值 ， 在 未 指定 时 ， 根 据 以 下 公式 计算 得 出 : 


在 系统 内 存 大 于 等 于 4GB 时 ，nf_conntrack buckets = 65536 
在 系统 内 存 小 于 4GB 时 ，nf_conntrack buckets = 内 存 大 小 / 16384 


在 本 案例 中 ， 使 用 options nf conntrack hashsize=131072 自 主 地 指定 了 Buckets 的 大 小 。 


Buckets 和 连接 追踪 表 的 关系 如 图 16-4 所 示 。 


Conntrack Table(Hash Table) 


图 16-4 ”Buckets 和 连接 追踪 表 的 关系 


设置 Buckets 合 理 的 值 (一 般 为 预计 的 连接 追踪 表 上 线 的 1/4) ， 使 得 连接 追踪 表 的 定位 效率 最 高 。 


确认 禁用 连接 追踪 的 效果 


在 禁用 了 连接 追踪 后 ， 可 以 使 用 如 下 的 两 个 方法 来 验证 效果 。 


检查 /var/log/messages 内 容 不 再 出 现 table full 的 报错 信息 。 
- 检查 lsmod| grep nf_conntrack 的 输出 ， 确 认 没有 任何 输出 即 可 。 


如 果 是 在 NAT 服 务 器 上 ， 则 需要 执行 以 下 的 命令 来 检查 效果 : 


sysctl net.netfilter.nf conntrack max # 确 认 该 值 是 我 们 修改 后 的 结果 
sysctl net.netfilter.nf conntrack count # 确 认 该 值 能 够 突破 出 问题 时 的 最 大 追踪 数 


最 佳 实践 82: 慎重 禁用 ICMP 协 议 
禁用 ICMP 协 议 导致 的 故障 案例 一 则 


1. 问 题 描 述 


我 们 负责 维护 的 某 系 统 分 布 于 多 个 机 房 ， 之 前 文件 传输 一 直 走 公 网 ， 很 正常 ， 架 构 如 


中 | 


16-5 所 示 。 


通过 公 网 传输 文件 V 


图 16-5 通过 公 网 传输 正常 


后 来 大 内 网 (使 用 GRE VPN 技 术 在 Internet 上 组 建 的 私有 网 络 ， 目 前 通过 北京 电信 通 转发 ， 使 电信 和 联通 之 间 的 互 访 更 快速 ) 建成 了 ， 为 了 安全 和 快速 ， 文 件 传输 改 走 大 内 网 ， 架 构 如 图 16-6 所 示 。 


通过 大 内 网 传输 文件 X 


Internet 
INT. 


图 16-6 通过 大 内 网 传输 失败 


结果 碰 到 奇怪 的 问题 : 使 用 scp 或 者 wget 通 过 大 内 网 传输 文件 时 ， 只 能 传输 1KB 左 右 大 小 的 文件 ， 稍 大 一 点 的 文件 ， 比 如 2KB 以 上 的 文件 ， 在 传输 中 就 卡 住 了 。 当 停止 iptables 后 ， 则 可 以 传输 大 文件 。 
更 奇怪 的 事 还 在 后 面 ， 再 次 启用 iptables， 大 约 在 10min 内 仍然 可 以 传输 大 文件 ， 但 超过 10min 后 ， 问 题 会 重 现 。 


2. 排 查 过 程 
在 启动 iptables 后 ， 进 行 抓 包 。 


在 抓 包 中 (文件 : ICMP_Fragmentation_Needed.pcap) ， 我 们 看 到 了 有 ICMP 报 错 信息 ， 下 图 16-7 中 全 所 示 的 数据 帧 。 


. Time Destination 

15 5.867249 Br Amst .10.60.69 66 42711 > 80 [SYN] 5eq-1654818306 win-5840 Len-0 MSS- 
16 5.867264 .10.60. i2 .4.27 66 80 > 42711 [SYN, ACK] 5eq-563863027 Ack-1654818307 
17 5.887236 US .10.60.69 60 42/11 > 80 [ACK] Seq=1654818307 Ack-5638630?28 Win=6 
18 5.887245 Sy s 16 .10.60.69 186 GET /latale/13/data HTTP/1.0 

19 5.887250 .10.60. 22.3.27 54 80 > 42711 [ACK] Seq-563863028 Ack-1654818439 win-6t 
20 5.88/350 .10.60. 2.3.27 2974 [TCP segment of a reassembled PDU] 


21 5.887468 .10. : .10.60.69 70 Destination unreachable (Fragmentation needed) € 
27 8.887239 .10.60. 2.3.27 1514 [TCP Retransmission] 80 > 42711 [ACK] Seq-563863028 
28 8.88/343 .J0-251. .10.60.69 70 Destination unreachable (Fragmentation needed) 

41 14.88786110.10.60. eda 2f 1514 [TCP Retransmission] 80 > 42711 [ACK] 5eq-563863028 
42 14.88797410.10. i .10.60.69 70 Destination unreachable (Fragmentation needed) 


图 16-7 ICMP 报 错 信息 


编号 为 20 的 数据 帧 是 服务 器 10.10.60.69 向 网 卡 提交 了 长 度 为 2974 的 数据 帧 (该 网 卡 支持 TSO， 进 行 自动 分 片 传输 到 网 络 上 ) 后 ， 在 编号 为 21 的 数据 帧 中 ， 被 路 由 器 10.10.251.2 返 回 了 ICMP 


Destination unreachable (Fragmentation needed) 的 信息 。 


ICMP 信 息 的 具体 内 容 如 图 16-8 所 示 。 


a Internet Control Message Protoco 

Type: 3 (Destination unreachable) e 

Code: 4 (Fragmentation needed) 

Checksum: Ox50cc [correct] 

MTU of next hop: 1400 

Internet Protocol version 4, Src: 10.10.60.69 (10.10.60.69), Dst: 10.2.3.27 (10.2.3.27) 
Version: 4 
Header length: 20 bytes 

& Differentiated Services Field: 0x00 (DSCP 0x00: Default; ECN: 0x00: Not-ECT (Not ECN-Capable Transport)) 
Total Length: 1500 
Identification: Oxb681 (46721) 
Flags: 0x02 (Don't Fragment) 
Fragnent offset: 0 
Time to live: 62 
Protocol: TCP (6) 

四 Header checksum: Ox2d2f [in ICMP error packet] 
Source: 10.10.60.69 (10.10.60.69) 
Destination: 10.2.3.27 (10.2.3.27) 
[Source GeoIP: Unknown] 
[Destination GeoIP: Unknown] 

2 Transmission Control Protocol, Src Port: 80 (80), Dst Port: 42711 (42711) 

Source port: 80 COLS) 
Destination port: 42711 (42711) 
Sequence number: 563863028 €j 


图 16-8 ICMP & p 


其 中 ，@ 是 ICMP 类 型 ， 久 是 该 类 型 CMP 的 错误 代码 ， 合 是 通知 10.10.60.69 (发 送 方 ) 应 该 使 用 的 MTU (14005755) ， 人 @ 和 全 是 引起 这 个 ICMP 的 数据 帧 的 源 IP 和 目的 IP (PRSS) ，@ 和 @ 是 引起 
这 个 ICMP 的 数据 帧 的 源 端口 和 目的 端口 (TCP 层 信息 ) ，@ 是 引起 这 个 ICMP 的 数据 帧 的 TCP 序 列 号 。 令 @ 人 @@@FF 好 与 图 16-7 所 示 的 编号 为 20 的 数据 帧 相 匹 配 。 


而 这 个 ICMP 的 信息 ， 正 好 被 iptables 过 滤 了 。 


因为 我 们 只 开放 了 ICMP 的 以 下 类 型 为 允许 : 


iptables -A INPUT -p icmp --icmp-type echo-reply -j ACCEPT 
iptables -A INPUT -p icmp --icmp-type echo-request -j ACCEPT 


MTU 发 现 的 原理 


通过 以 上 分 析 ， 我 们 认识 到 有 一 类 ICMP 专 门 用 于 通知 MTU 信 息 ， 那 么 什么 是 MTU 呢 ? 


MTU: 最 大 传输 单元 (Maximum Transmission Unit) 是 指 一 种 通信 协议 的 某 一 层 所 能 通过 的 最 大 数据 包 大 小 (以 字 节 Byte 为 单位 ) 。 由 于 每 个 以 太 网 帧 最 大 不 能 超过 1518 字 节 ， 除 去 以 太 网 帧 的 帧 
3k ( 源 MAC+ 目 标 MAC+Type+CRC) 18 字 节 ， 那 么 剩 下 承载 上 层 协议 的 Data 域 (IP 头 +TCP 头 + 应 用 数据 ) 最 大 就 只 能 有 1500 字 节 ， 如 图 16-9 所 示 。 这 个 值 我 们 就 把 它 称 之 为 MTU。 


80 00 20 7A 3F SE 80 00 20 20 3A AE 08 00 IP, ARP, etc. 00 20 20 3A 
Destination MAC Address Source MAC Address EtherType Payload CRC Checksum 
Data 


MAC Header 


a 
(14 bytes) (46 - 1500 bytes) (4 bytes) 


Ethernet Type Il Frame 
(64 to 1518 bytes) 


16-9. 以太 网 数据 帧 封装 结构 图 


以 下 几 个 概念 与 MTU 密 切 相关 。 


| GRE: 通用 路 由 封装 协议 (Generic Routing Encapsulation) ， 规 定 了 如 何 用 一 种 网 络 协 议 去 封装 另 一 种 网 络 协议 的 方法 ， 它 是 一 种 应 用 非常 广泛 的 第 三 层 VPN 隧 道 协议 。 


| MSS: 最 大 分 段 尺 寸 (Maximum Segment Size) ， 是 TCP 数 据 包 每 次 能 够 传输 的 最 大 数据 分 段 。 这 个 值 等 于 MTU 减 去 IP 数 据 包 包头 的 20 字 节 和 TCP 数 据 段 的 包头 20 字 节 ， 所 以 MSS 一 般 为 1460 字 节 。TCP 
协议 在 建立 连接 的 时 候 双 方 协商 本 次 通信 使 用 的 MSS 值 。 


如 图 16-10 所 示 ， 可 以 看 到 以 太 网 中 MTU 与 MSS、 以 太 网 数据 帧 大 小 的 关系 。 


“ PMTU: 路 径 最 大 传输 单元 (Path Maximum Transmission Unit) 。 在 因特网 上 ， 两 台 主机 之 间 的 通信 要 经 过 多 个 网 络 ， 而 每 个 不 同 的 网 络 在 IP 层 可 能 有 不 同 的 MTU。 两 台 通 信 主 机 路 径 中 的 最 小 MTU 被 
称 作 路 径 MTU (PMTU) 。 默 认 情况 下 ，PMTU 的 老化 时 间 是 10min。 可 以 通过 配置 PMTU 老 化 时 间 来 更 改 PMTU 项 在 缓存 中 的 时 间 。 在 Linux 中 ， 使 用 以 下 命令 可 以 检查 老化 时 间 : 


sysctl net.ipv4.route.mtu expires 


(单位 : Byte ) 


' 14 20 20 ; 4 ' 
| | I MSS: 1460 | r 
| | ! | i 
| I ! I 1 
| MTU: 1500 | ' 
FC 一 1 
[| | [| L| 
[ L| 
i 以 太 网 帧 MAX: 1518 i 
| L| 


图 16-10 MTU 与 MSS、 以 太 网 帧 关系 图 


|PMTUD: 路 径 最 大 传输 单元 发 现 (Path MTU Discovery) 。 通 过 在 IP 首 部 中 设置 “不 要 分 片 位 (DondkPragment, DE) ”， 来 发 现 当 前 路 径 的 路 由 器 是 否 需要 对 正在 发 送 的 IP 数 据 报 进行 分 片 。 如 果 一 
个 待 转发 的 IP 数 据 报 被 设置 DF 比特 ， 而 其 长 度 又 超过 了 MTU， 那 么 路 由 器 就 会 丢弃 这 个 报 文 ， 并 返回 一 个 ICMP 不 可 达 的 差错 报 文 (类 型 为 3、 代 码 为 4: 需要 进行 分 片 但 设置 了 不 分 片 位 ) ， 其 中 填 有 下 一 
跳 正 确 的 MTU。 如 果 发 送 端 主机 接收 到 这 个 ICMP 差 错 控制 报 文 ， 它 就 可 以 调整 使 用 正确 的 MTU 重 新 传送 这 个 报 文 ， 并 在 以 后 的 传输 中 沿用 这 个 MTU 大 小 。PMTUD 的 工作 流程 如 图 16-11 所 示 。 


Destination 


Source 


MTU-1500 MTU-1500 MTU-1350 


Sava 1 
Packet with MTU-1500 Server 2 


ICMP error:packet too big;use MTU-1350 
C 


Packet with MTU=1350 


Packet received 


图 16-11 PMTUD 工 作 过 程 


为 什么 在 图 16-8 中 的 全 提示 下 一 跳 的 MTU 是 1400 呢 ? 


公司 的 大 内 网 使 用 了 GRE VPN 技 术 。GRE 隧 道 需 要 对 IP 包 再 封装 ， 会 额外 增加 GRE 报 文 头 (4 字 节 ) + 外 层 IP 报 文 头 (20 字 节 ) ， 总 共 24 字 节 。 而 以 太 网 默认 的 MTU 为 1500 字 节 ， 减 去 GRE 封 装 的 24 字 
节 ， 因 此 VPN 网 关 的 MTU 应 该 是 1476 字 节 了 。 在 VPN 路 由 器 上 ， 网 络 管理 员 手动 减少 了 MTU 到 1400 字 节 。 因 此 ， 当 服务 器 10.10.60.69 发 出 MTU 为 1500 字 节 的 报 文 时 ， 被 路 由 器 返回 了 ICMP 的 报错 ， 并 
通知 服务 器 以 1400 字 节 的 MTU 重 新 发 包 。 


表 16-1 所 示 是 一 些 常见 网 络 环境 下 的 MTU 值 。 


表 16-1 常见 网 络 环境 下 的 MTU 值 (单位 : Byte) 


解决 问题 的 方法 


在 iptables 中 ， 增 加 以 下 条 目 : 


iptables -A INPUT -p icmp --icmp-type fragmentation-needed -j ACCEPT 


在 这 个 案例 中 ， 可 以 看 到 ， 如 果 简 单 地 把 iptables 给 禁止 会 导致 MTU 协 商 不 成 功 ， 从 而 引发 网 络 传输 的 问题 。 


因此 ， 在 实践 中 ， 建 议 不 要 把 iptables 完 全 给 禁止， 


至 少 应 该 打开 以 下 访问 权限 : 


iptables -A INPUT -p icmp --icmp-type echo-reply -j ACCEPT 
iptables -A INPUT -p icmp --icmp-type echo-request -j ACCEPT 
iptables -A INPUT -p icmp --icmp-type fragmentation-needed -j ACCEPT 


最 佳 实践 83: 网 络 地 址 转换 在 实践 中 的 案例 


在 实践 中 ，iptables 除 了 可 


源 地 址 NAT 


于 网 络 安全 之 外 ， 还 经 常 


于 网 络 地 址 转换 (NAT) 的 环境 中 。 网 络 地 址 转换 分 为 源 地 址 转换 ( 源 地 址 NAT) 和 


源 地 址 NAT， 主 要 用 于 图 16-12 所 示 的 网 络 示意 图 中 无 外 网 IP 的 服务 器 (Server B) 需要 访问 互联 网 的 场景 下 。 


在 图 16-12 中 ，Server B 没 有 外 网 IP， 如 其 需要 访 


问 互联 网 ， 则 需要 进行 以 下 设置 。 


Internet 


的 地 址 转换 ( 


的 地 址 NAT) 。 


ethO: x.y.z.173 


eth1:10.125.70.111/24 


Server B 


图 16-12 网络 地 址 转换 的 网 络 示意 


(1) 在 服务 器 Server B 上 ， 指 定 其 网 络 的 默认 网 关 是 10.128.70.112 ( 即 Server A 的 内 网 地 址 ) 。 


(2) 在 服务 器 Server A 上 ， 启 用 路 由 功能 。 启 用 的 方法 是 执行 以 下 命令 : 


sysctl -w net.ipv4.ip forward-l 


(3) 在 Server A 上 ， 设 置 iptables 规 则 如 下 : 


iptables -t filter -A FORWARD -j ACCEPT 
iptables -t nat -A POSTROUTING -o eth0 -j SNAT --to x.y.z.173 #eth0 是 Server A 的 外 网 网 卡 ，x.y.z.173 是 Server A 的 外 网 IP 


经 过 以 上 3 步骤 设置 后 ，Server B 将 会 通过 Server A 访问 互联 网 。 此 时 ， 在 互联 网 上 看 到 的 源 地 址 是 Server A 的 外 网 IP。 


以 Server B 访 问 8.8.8.8 的 DNS 服 务 为 例 的 数据 流程 如 下 。 


(1) 在 Server B 上 ， 网 络 层 数据 包 格 式 为 : 目的 地 址 IP 8.8.8.8， 源 地 址 IP10.128.70.111。 


(2) 在 Server A 上 经 过 源 地 址 NAT 后 的 网 络 层 数 据 包 格式 为 : 目的 地 址 IP 8.8.8.8， 源 地 址 IP x.y.z.173。 该 转换 条 目 被 记录 在 /proc/net/nf_conntrack 中 。 


(3) 8.8.8.8 的 响应 ( 源 地 址 IP 8.8.8.8， 目 的 地 址 IP x.y.z.173) 到 达 Server A 后 ，Server A 改写 网 络 层 数 据 包 为 源 地 址 IP 8.8.8.8， 目 的 地 址 IP 10.128.70.111. 


这 就 是 源 地 址 NAT 的 工作 过 程 。 


目的 地 址 NAT 


目的 地 址 NAT 用 于 如 图 16-12 所 示 的 网 络 示意 图 中 ， 外 部 用 户 直接 访问 无 外 网 |P 的 服务 器 (Server B) 提供 的 服务 时 。 例 如 ， 外 部 用 户 希 望 通过 互联 网 访问 到 Server B 上 的 Oracle 数 据 库 (监听 端 
TCP 1521) 时 ， 可 以 使 用 如 下 的 命令 在 Server A 上 进行 目的 地 址 NAT 设 


iptables -t nat -A PREROUTING -d x.y.z.173 -p tcp -m tcp --dport 1521 -j DNAT --to-destination 10.128.70.111:1521 # 改 写 目 的 地 址 为 10.128.70.111， 目 的 端口 为 1521 
iptables -t nat -A POSTROUTING -d 10.128.70.111 -p tcp -m tcp --dport 1521 -j SNAT --to-source 10.128.70.112 # 改 写 源 地 址 IP 为 Server A 的 内 网 IP， 此 时 在 Server B 上 相对 于 是 和 Server AET 


网 络 地 址 转换 是 运 维 人 员 在 工作 中 经 常用 到 的 技术 ， 需 要 非常 熟悉 源 地 址 转换 和 目的 地 址 转换 这 2 种 方案 。 


最 佳 实践 84: 深入 理解 iptables 各 种 表 和 各 种 链 


通过 以 上 几 节 的 最 佳 实践 ， 可 以 知道 ，iptables 为 系统 工程 师 提 供 了 强大 的 包 过 滤 功 能 、NAT 网 络 地 址 转换 功能 。 在 Linux 中 ， 为 iptables 提 供 这 些 功 能 的 底层 模块 ， 是 netfilter 框 架 。netfilter 是 Linux 
内 核 中 的 一 系列 钧 子 (hook) ， 它 为 内 核 模 块 在 网 络 栈 中 的 不 同位 置 注册 回调 函数 (callback function) 提供 了 支持 。 数 据 包 在 协议 栈 中 依次 经 过 这 些 在 不 同位 置 的 回调 函数 的 处 理 。 


Netfilter 钩 子 与 iptables 各 种 表 和 链 的 处 理 顺序 如 图 16-13 所 示 。 


NF IP. LOCAL, IN 


人 


进入 的 。 
PREROU- 
TING 


P LI 
数据 包 
K 
T m 


NF IP PRE ROUTING | ai 


NF. IP. LOCAL, OUT 


NF IP. FORWARD 


有 


NF IP POST ROUTING 


-—— — — — — ———— 
发 送 到 网 络 的 
数据 包 


要 本 — 


图 16-13 netfilter 钩 子 与 iptables 各 种 表 和 链 的 处 理 顺 序 图 
Netfilter 有 5 个 钩子 可 以 提供 程序 去 注册 。 在 数据 包 经 过 网 络 栈 的 时 候 ， 这 些 钩 子 上 注册 的 内 核 模块 依次 被 触发 。 这 5 个 钩子 的 处 理 时 间 如 下 。 


NE IP PRE_ROUTING: 在 数据 流量 进入 网 络 栈 后 立即 被 甬 发 ， 这 个 钩子 上 注册 的 模块 在 路 由 决策 前 即 被 执行 。 如 图 16-13 中 国 所 示 的 阶段 。 


- NE IP. LOCAL IN: 这 个 钩子 在 路 由 判断 确定 包 是 发 送 到 本 机 时 执行 。 如 图 16-13 中 国 所 示 的 阶段 。 


< NF_IP_FORWARD: 这 个 钩子 在 路 由 判断 是 需要 转发 给 其 他 主机 时 执行 。 如 图 16-13 中 的 图 所 示 的 阶段 。 


< NE IP. LOCAL OUT: 这 个 钧 子 在 本 机 进程 产生 的 网 络 被 送 到 网 络 栈 上 时 执行 ， 如 图 中 国 所 示 的 阶段 。 


< NF_IP_POST_ROUTING: 这 个 钓 子 在 数据 包 经 过 路 由 判断 即将 发 送 到 网 络 前 执行 。 如 图 16-13 中 国 所 示 的 阶段 。 

lptables 中 有 5 个 链 (chain) ， 分 别 如 下 。 

PREROUTING: NF. IP. PRE_ ROUTING 钩子 触发 。 

- INPUT: NF IP. LOCAL IN 钩子 触发 。 

- FORWARD: NF IP. FORWARDZAJ F fik A. 

- OUTPUT: NF IP LOCAL OUT 钩子 触发 。 

- POSTROUTING: NF IP. POST ROUTING 钩子 触发 。 

lptables 中 有 5 种 表 (table) ， 分 别 如 下 。 

* 旬 ter 表 。filter 表 是 iptables 中 使 用 最 广泛 的 表 ， 这 个 表 的 作用 是 进行 过 滤 ， 也 就 是 由 这 个 表 来 决定 一 个 数据 包 是 否 继续 它 的 目的 地 址 或 者 被 拒绝 。 
“nat 表 。 顾 名 思议 ， 这 个 是 进行 网 络 地 址 转换 用 的 ， 如 本 章 中 的 最 佳 实践 83 所 示 ， 可 以 改变 数据 包 的 源 地 址 或 者 目的 地 址 。 

“mangle 表 。mangle 表 用 于 修改 也 的 头 部 信息 ， 如 修改 TIL (Time to Live) o 

"taw 表 。taw 表 为 iptables 提 供 了 一 种 不 经 过 状态 追踪 的 机 制 ， 在 大 流量 对 外 业务 的 服务 器 上 使 用 这 个 表 以 避免 状态 追踪 带 来 的 性 能 问题 。 如 本 章 中 的 最 佳 实践 81 中 的 案例 所 示 。 


“security 表 。 提 供 在 数据 包 中 加 入 SELinux 特 性 的 功能 。 一 般 用 得 不 多 ， 在 下 面 的 章节 中 不 再 包含 这 一 部 分 内 容 。 


D 


16-13 中 的 raw 表 、mangle 表 、filter 表 都 有 


通过 以 上 分 析 ， 我 们 知道 netfilter 仅 仅 有 5 个 钧 子 ， 而 iptables 有 5 个 链 和 5 种 表 ， 由 此 可 见 在 一 个 钧 子 上 可 能 有 多 个 表 的 不 同 链 需 要 处 理 ， 如 
POSTROUTING 链 ， 这 些 链 根据 自己 向 内 核 注册 时 的 优先 级 (priority) 依次 处 理 。 


本 章 小 结 


Linux 中 的 iptables 既 是 强大 的 网 络 安全 工具 ， 也 是 网 络 地 址 转换 工具 。 本 章 重点 剖析 了 连接 追踪 的 机 制 及 使 用 中 的 注意 事项 ， 提 出 了 慎重 禁用 ICMP 协 议 的 论点 并 进行 了 分 析 。 对 iptables 在 网 络 地 址 转换 中 
的 两 种 经 典 使 用 场景 进行 了 配置 案例 的 说 明 。 作 为 总 结 部 分 ， 我 们 给 出 了 iptables 中 各 种 表 和 链 的 作用 关系 ， 和 希望 给 读者 一 个 清晰 的 图 像 ， 在 分 析 iptables 问 题 时 能 够 参照 这 个 图 像 进 行 快速 定位 。 


第 4 篇 “ 运 维 自动 化 和 游戏 运 维 


- 第 17 章 ”使 用 Kickstart 完 成 批量 系统 安装 
“ 第 18 章 ”利用 Perl 编 程 实施 高 效 运 维 

“ 第 19 章 ”精通 Ansible 实 现 运 维 自动 化 

“ 第 20 章 ”掌握 端 游 运 维 的 技术 要 点 


“ 第 21 章 ”精通 手 游 运 维 的 架构 体系 


第 17 章 “使 用 Kickstart 完 成 批量 系统 安装 


在 考虑 快速 并 且 批量 地 安装 Linux 系 统 时 ，PXE (Preboot Execution Environment， 预 引导 执行 环境 ) 一 定 是 首选 。 因 为 它 不 但 简单 ， 而 且 功 能 非常 强大 。 本 章 就 将 介绍 在 PXE 安 装 过 程 中 的 一 个 必 不 可 少 


的 组 成 部 分 一 Kickstart， 又 称 自动 应 答 文件 。 配 置 一 个 精准 的 应 答 文 件 ， 将 会 使 系统 有 一 个 完美 的 开始 。 


此 外 ， 本 章 还 将 介绍 在 日 常 运 维 过 程 中 ， 哪 些 参 数 需要 做 调 优 ， 并 从 原理 上 进行 解读 。 这 一 步 ， 对 于 系统 高 效 稳定 地 运行 是 不 可 或 缺 的 。 


最 佳 实践 85: Kickstart 精 要 


对 于 PXE 环 境 的 安装 ， 本 章 就 不 做 介绍 了 ， 大 家 只 需要 搜索 “PXE 实 现 Linux 系 统 无 人 值守 批量 安装 ”就 能 得 到 非常 多 很 详细 的 安装 说 明文 档 。 需 要 注意 的 是 ， 在 PXE 安 装 Linux 系 统 时 ， 如 果 PXE 安 装 服 
务 器 和 待 安装 系 统 的 服务 器 是 连接 在 同一 交换 机 上 的 话 ， 建 议 划 分 单独 的 VLAN， 避 免 使 用 默认 VLAN。 


PXE 启 动 过 程 及 原理 


从 服务 器 加 电 到 载 入 Kickstart， 完 成 服务 器 安装 ， 这 个 过 程 如 下 。 


1) 客户 服务 器 加 电 启动 。 


N 


加 电 后 服务 器 网 卡 向 网 段 内 的 DHCP 服 务 器 发 出 IP 请 求 。 


3) DHCP 服 务 器 获得 请 求 并 响应 客户 端 ， 并 为 其 分 配 资源 (IP、 掩 码 、 网 关 、DNS 信 息 ) 。 此 外 ，DHCP 服 务 器 还 将 为 客户 端 提供 TFTP 服 务 器 及 启动 镜像 的 地 址 信息 。 


4) 客户 端 获 得 这 些 信息 ， 其 中 包括 含有 启动 镜像 的 TFTP 服 务 器 。 


5 


5) TFTP 服 务 器 将 启动 镜像 (pxelinux.O) ， 发 送 给 客户 端 ， 客 户 端 拿 到 之 后 执行 它 。 


6) 默认 情况 下 ， 启 动 镜像 会 在 TFTP 服 务 器 的 pxelinux.cfg 目 录 下 查找 配置 文件 ， 客 户 端 查找 配置 文件 的 顺序 是 先 查找 与 MAC 地 址 对 应 的 ， 比 如 网 卡 MAC 为 00: Oc: 29: fO: a6: 7f， 那 么 客户 端 将 先 
查找 01-00-0c-29-f0-a6-7f， 如 果 不 存 在 ， 则 开始 查找 以 |P 所 对 应 16 进 制 数 为 文件 名 的 配置 文件 ， 比 如 IP 是 172.16.100.100， 则 先 查找 AC106464 文 件 ， 存 在 则 加 载 ， 不 存在 则 继续 按 AC10646 文 件 名 依次 


去 未 尾 操作 ， 直 到 最 后 一 位 A， 也 未 找到 的 话 ， 才 会 查找 默认 的 default 配 置 文件 。 如 图 17-1 所 示 ， 显 示 了 启动 镜像 查找 配置 文件 的 顺序 。 


RTEHRY IP: 


172.165. 188.51 


PXELINUX 3.86 2818-84-81 Copyright (C) 1994-2818 H. Peter finvin et al 
'PXE entry point found (we hope) at SEBE:818B via plan fi 

NDI code segment at SESE len 8139 

NDI data segment at 9838 len 5568 

etting cached packet 81 82 83 

y IP address seems to be hE186464 172.15.188.188 
ip-172.165.188.188:172.16.188.51:172.16.188.51:255.255.255.8 

FTP prefix: 
i load: pxelinux.cfg^554d5fa8-f65a-e19b-83a4-43a867f8a67f 
load: pxelinux.cfg^/81-88-8c-29-f8-a65-7f 

load: pxelinux.cfg^RC1865464 
load: pxelinux.cfg^RC185456 

load: pxelinux.cfg^RC1864 
load: pxelinux.cfg^RC186 

load: pxelinux.cfg/RC1B8 

load: pxelinux.cfg^RC1 

load: pxelinux.cfg^RCt 

load: pxelinux.cfg^fi 

load: pxelinux.cfg^/default 


to 
to 
to 
to 
to 
to 
to 
to 
to 
to 
to 


图 17-1 pxelinux.0 配 置 文件 查找 顺序 


7) 客户 端 得 到 配置 文件 之 后 ， 就 安装 配置 文件 的 内 容 下 载 内 核 和 root 文 件 系 统 。 


8) 客户 端 开 始 安 装 系统 的 时 候 ， 还 需要 一 个 应 答 文件 也 就 是 Kickstart 文 件 ， 通 过 Kickstart 文 件 中 定义 的 配置 ， 完 成 操作 系统 的 安装 。 


创建 Kickstart 以 下 文件 有 三 种 方式 。 


- 完全 手动 创建 Kickstart。 


- 使 用 Redhat 图 形 化 工具 system-config-kickstart 创 建 Kickstart。 


“ 通过 标准 化 安装 程序 Anaconda 安 装 系统 ，Anaconda 会 生成 一 个 当前 系统 的 Kickstart 文 件 ， 以 此 来 创建 Kickstart 文 件 。 


这 三 利 


方式 都 是 非常 常 


1) 使 


的 ， 以 下 就 主要 介绍 一 下 ， 如 何 


system-config-kickstart 来 创建 一 个 标准 的 Kickstart 文 件 。 


system-config-kickstart 之 前 先 安装 EPEL 源 ， 再 安装 GNOME 桌 面 ， 使 用 的 命令 如 下 。 


[root@localhost ~]#rpm -Uvh http://mirrors.sohu.com/fedora-epel/6/x86 64/epel-release-6-8.noarch.rpm 
[root@localhost ~]#yum groupinstall -y "Desktop" "Desktop Platform" "Desktop Platform Development" "Fonts" "General Purpose Desktop" "Graphical Administration Tools" "Graphics 


2) 安装 system-config-kickstart。 


[rootülocalhost ~]#yum install -y system-config-kickstart 


3) 如 果 读 者 朋友 是 在 一 台 vmware 的 虚拟 机 旦 


么 还 需要 安装 vnc-server。 使 用 的 命令 如 下 。 


操作 的 话 ， 那 么 这 个 时 候 只 要 把 /etcVinittab 中 的 启动 模式 改 为 5， 重 启 系统 ， 通 过 虚拟 机 控制 台 就 能 通过 图 形 界面 登录 了 。 如 果 不 是 在 虚拟 机 里 操作 ， 那 


[rootülocalhost ~]# yum install -y tigervnc-server tigervnc 
[rootélocalhost ~]# vim /etc/sysconfig/vncservers 
VNCSERVERS-"2: root" 
VNCSERVERARGS[1]-"-geometry 800x600 -nolisten tcp -localhost" // 方 括号 中 的 1 表示 监听 0.0.0.0， 默 认 是 2， 表 示 监 听 127.0.0.1 
[rootélocalhost ~]# vncpasswd ”// 配 置 root 的 vnc 密 码 
Password: 
Verify: 


[root@localhost ~]# service vncserver start 


Starting VNC server: 2:root 
New 'localhost.localdomain:2 (root)' desktop is localhost.localdomain:2 
Starting applications specified in /root/.vnc/xstartup 

Log file is /root/.vnc/localhost.localdomain:2.1og 


// 表 示 vnc 的 监听 端口 是 5902， 用 户 是 root 


// 启 动 vncserver 


[ OK ] 


vnc 配 置 完 成 之 后 ， 在 Windows 下 使 


VNC Viewer, 在 VNC Server 处 输入 “IP: 5902”， 如 图 17-2 所 示 。 


输入 刚才 设置 的 密码 ， 登 录 GNOME 桌 面 ， 如 图 17-3 所 示 ， 选 择 Applications 一 System Tools 一 Kickstart 选 项 。 


We lacalhast.iocaldamaein:2 treat) - VIC Viewer 
Places System 性 


[38 Accessories 


J Graphics 


Jai 


& Internet 


-T Programming 


H3 Sound & Video 


CD/DVD Creat 
in.) Disk Usage Analyzet 
Disk Utility 
Trash 
File Browser 
Kickstart 
System Monitor 


Terminal 
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打开 Kickstart 应 用 之 后 ， 依 次 将 Basic Configuration, Installation Method 等 所 有 的 菜单 都 配置 完成 ， 保 存 即 可 得 到 一 个 Kickstart 应 答 文件 。 


Kickstart 应 答 文件 的 结构 可 以 分 为 以 下 这 些 部 分 。 


1) 基础 配置 : 依次 为 安装 类 型 、 如 何 安装 、 语 言 、 键 盘 、 时 区 、 日 志 。 


install 7/ 安装 类 型 是 instal1 或 者 npgragie 

text // 安 装 模 式 是 text (文字 模式 ) 还 是 graphical (图 形 模式 ) 
lang en US / 8 FTO NS MA US， 中 文 是 lang zh CN 

keyboard us // 键 盘 类 型 默认 英文 键盘 

timezone Asia/Shanghai // 指 定时 区 

logging --level-info  // 安 装 日 志 级 别 ， 默 认 --level=info 


2) 网 络 配置 。 


network --bootproto=dhcp --device=eth0 --onboot=on 


配置 网 卡 ， 启 动 DHCP 或 者 静态 IP，PXE 安 装 一 般 使 用 DHCP 获 取 IP， 如 果 服 务 器 有 多 块 网 卡 ， 此 处 可 以 配置 多 个 ， 但 需要 注意 ， 如 果 Kickstart 中 定义 了 多 个 网 卡 ， 而 实际 安装 服务 器 中 的 网 卡 数量 小 于 
定义 的 个 数 ， 安 装 过 程 会 报错 ， 提 示 未 发 现 网 卡 。 


3) 安装 镜像 路 径 。 


url --url-http://172.16.100.100/centos6.5 


安装 镜像 路 径 可 以 是 cd-rom、nfs、ftp、http、hard Drive, an: 


nfs --server-172.16.100.100 --dir-/ centos6.5 
url --url-ftp://ftpuser:ftppasswd8172.16.100.100/ centos6.5 
harddrive --dir-install --partition-1 


4) 密码 及 安全 配置 。 


rootpw --plaintext Test@Install // root 密 码 --plaintext 明 文 ，--iscrypted 密 文 


selinux --disabled ”// 关 闭 selinux 
firewall --disabled // 关 闭 防火 墙 
auth --passalgo-md5 // 身 份 机 制 ， 默 认 选 md5 


5) 硬盘 分 


M 


clearpart --all --initlabel  // 清 空 现 有 分 区 信息 

part swap --fstype-"swap" --size-2048 

part / --fstype-"ext4" --grow --size-1  ”//--grow 表 示 使 用 剩余 全 部 空间 
part /boot --fstype="ext4" --size-100 


配置 硬盘 分 区 ， 可 选手 动 或 自动 分 区 ， 也 可 以 使 用 pre-installation 来 自 适 应 ,之 后 章 


6) 引导 方式 。 


节 会 有 介绍 。 


bootloader --location-mbr // 全 新 安装 默认 就 是 mbr 


7) 软件 包 安装 。 


Spackages 
Gbase 
Gcore 


8) 安装 前 及 安装 后 的 一 些 操作 。 


Sinclude /tmp/xx.cfg // 引 用 ， 可 以 将 spre 执 行 之 后 结果 作为 某 个 配置 项 的 内 容 
spre ”// 定 义 在 此 标签 下 的 脚本 或 者 命令 会 在 系统 安装 之 前 执行 


Send 
bpost // 此 标签 下 定义 系统 安装 完成 之 后 的 一 些 操作 ， 通 常 可 以 定义 一 些 系统 前 期 任务 


Send 


由 于 篇 幅 有 限 ， 笔 者 将 一 个 完整 的 system-config-kickstart 生 成 的 Kickstart 文 件 ks-custom.cfg 放 在 了 github 中 ， 通 过 如 下 命令 可 以 获取 。 


git clone https://github.com/nameyjj/pre-installation.git 


pre-installation 与 post-installation 应 用 实践 


在 Kickstart 文 件 中 ， 有 两 个 非常 好 用 的 标记 ，pre-installation 和 post-installation， 分 别 定 义 在 %pre%end 和 %post%end 中 。 


首先 介绍 pre-installation， 在 Kickstart 文 件 中 用 %pre 表 示 ， 在 其 中 定义 的 命令 或 者 脚本 会 在 Kickstart 文 件 中 最 先 被 执行 ， 定 义 的 时 候 需 要 注意 ， 必 须 把 %pre 的 定义 写 在 Kickstart 文 件 的 底下 ,可 以 将 


利用 pre-installation 可 以 做 系统 环境 的 检查 ， 差 异化 系统 配置 ， 通 过 两 个 实例 再 进一步 说 明 。 


1) 系统 环境 检查 


在 安装 系统 之 前 ， 对 系统 的 配置 ， 不 如 对 CPU 型 号 ， 内 存 容 量 ， 硬 盘 容量 ， 网 卡 型 号 这 些 做 一 个 提前 检查 ， 这 步 的 人 有 


是 为 了 在 自 


git clone https://github.com/nameyjj/pre-installation.git 


配置 有 问题 。 笔 者 将 脚本 pre_Analyzing_Hardware.sh 放 在 了 github， 通 过 git clone 可 以 获得 。 


某 些 需要 先 于 系统 安装 之 前 执行 的 部 分 放 在 %pre 里 面 。 默 认 情 况 下 ， 在 %pre 标 签 下 可 以 执行 shell 脚 本 ， 如 果 需 要 执行 其 他 语言 的 脚本 ， 需 要 加 参数 interpreter， 比 如 python 脚 本 的 话 ， 需 要 添加 
interpreter/usr/bin/python, 


动 安装 开始 之 前 再 次 确认 硬件 信息 ， 避 免 在 提交 时 再 出 现 服务 器 硬盘 


将 pre_ Analyzing_Hardware.sh 中 的 内 容 粘 贴 到 %pre%end 之 间 即 可 。 图 17-4 所 示 为 在 安装 之 前 先 显 示 的 当前 服务 器 的 配置 信息 。 


2) 差异 化 系统 配置 


对 于 配置 一 样 的 服务 器 ， 使 用 Kickstart 安 装 完成 之 后 ， 系 统 是 完全 一 致 的 。 但 对 于 配置 不 一 样 的 服务 器 ， 有 些 部 分 就 需要 定制 ， 有 如 下 两 种 场景 。 


A 服务 器 有 8 块 SAS 盘 ， 做 RAID10， 系 统 里 面 会 看 到 1 个 硬盘 设备 ，B 服 务 器 有 10 块 盘 ， 其 中 2 块 SSD 和 8 块 SAS 盘 各 做 一 个 RAID10， 系 统 里 面 会 看 到 2 个 硬盘 设备 。 


| P 
«49 iLO Integrated Remote Console - iLO: ILO6CUA34086CL y a c= tJ 


Power Switch — Virtual Drives Keyboard Help 


Running anaconda 13.21.215, the CentOS system installer - please wait. 
fimalyzing Hardware... 


1. CPU Detail info: 
model name |; Intel(R) Xeon(R) CPU E5-2628 ve 8 2.18GHz 
Core number ' 24 


Memory Detail info: 
Size: 8192 MB 

Size: 8192 MB 

Size: 8192 MB 

Size: 8192 MB 

Size: 8192 MB 

Size: 8192 MB 

otle Size : 49152 MB 


, Network controller info: 


Broadcom Corporation NetXtreme BCM5719 Gigabit Ethernet PCle (reu 
Broadcom Corporation NetXtreme BCM5719 Gigabit Ethernet PCle (rev 
Broadcom Corporation MetXtreme BCM5719 Gigabit Ethernet PCle (reu 
Broadcom Corporation NetXtreme BCM5719 Gigabit Ethernet PCle (reu 


1. Disk Detail info: 
Disk /dev^sda: 1288.2 GB, 1288107283584 bytes 


720 x 400 «| a (& f | aru eo! 


17-4 ”pre-installation 检 查 硬件 配置 


安装 系统 时 要 求 ， 分 区 如 下 。 


1) A 服务 器 只 做 一 个 RAID 时 ，/boot 100MB, swap 8GB，/20GB，/datapool 剩 余 全 部 容量 。 
2) B 服 务 器 做 两 个 RAID 时 ， 第 一 个 逻辑 盘 上 ，/boot 100MB, swap 8GB，/ 剩 余 全 部 ， 第 二 个 逻辑 盘 上 /datapool 全 部 容量 。 


通过 pre-installation 就 可 以 实现 ， 在 Kickstart 文 件 中 ， 有 一 个 %include， 它 后 面 可 以 跟 一 个 文件 ， 而 这 个 文件 可 以 通过 定义 在 %pre 中 的 脚本 动态 生成 。 此 处 就 可 以 通过 一 个 脚本 先生 成 出 不 同 个 数 逻 
辑 盘 的 情况 下 ， 不 同 的 分 区 表 。 


1) A 服 务 器 只 做 一 个 RAID 时 的 分 区 表 。 


#Disk partitioning information,datapool in sda 

Clearpart --all --initlabel 

part swap --fstype-"swap" --size-8192 --ondisk-sda 

part / --fstype-"ext4" --size-20480 --ondisk-sda 

part /boot --fstype-ext4 --size-100 --ondisk-sda 

part /datapool --fstype-ext4 --grow --size-1  --ondisk-sda 


2) B 服 务 器 只 做 两 个 RAID 时 的 分 区 表 。 


[x] 


fDisk partitioning information,datapool in sdb 

Clearpart --all --initlabel 

part swap --fstype-"swap" --size-8192 --ondisk-sda 

part / --fstype-"ext4" --grow --size-l --ondisk-sda 

part /boot --fstype-ext4 --size-100 --ondisk-sda 

part /datapool --fstype-ext4 --grow --size-1  --ondisk-sdb 


通过 脚本 生成 的 分 区 文件 保存 在 /tmp/part-file， 然 后 在 Kickstart 文 件 中 使 用 %include/tmp/part-file 来 引用 。 


笔者 将 脚本 该 脚本 pre_Disk_Partition.sh 放 在 了 github 上 ， 通 过 git clone 可 以 获得 。 


git clone https://github.com/nameyjj/pre-installation.git 


获取 到 脚本 之 后 ， 将 pre_Disk_Partition.sh 的 内 容 添加 到 Kiskstart 文 件 的 %pre%end 中 ， 并 添加 %include/tmpypart-file 即 可 。 


如 图 17-5 所 示 ， 第 一 块 逻 辑 盘 安装 系统 ， 第 二 块 逻辑 盘 空 间 被 全 部 分 给 了 datapool 目 录 。 


[root localhost ~ ]# df -Th 
i lesystem Type Size Used fivail Usez Mounted on 
deu/sda3 ext4 77G 1.1G 72G / 


mpf s tmpfs 1.9G a 1.96 -dev/shm 
dev/sdal ext4 97M 34M 59M 36 /boot 
dev/sdb1 ext4 197G 188M 187G 1X /datapool 


图 17-5 ”pre-installation 差 异化 定制 分 区 


post-installation 在 平时 用 的 比 pre-installation 多 ， 因 为 它 是 定义 在 系统 安装 之 后 执行 的 脚本 。 需 要 注意 的 是 ， 在 定义 的 时 候 ， 必 须 将 其 写 在 Kiskstart 文 件 未 尾 ， 是 标签 %post 开 始 %end 结 束 。 


通常 可 以 将 一 些 系统 的 前 期 操作 放 在 post-installation 里 面 来 完成 ， 比 如 ， 有 项 目 要 求 ， 所 有 的 CentOS 6.264 位 系统 在 安装 完成 之 后 ， 升 级 内 核 Kkernel-2.6.32-220.17.1.el6.x86 64.rpm, kernel- 
firmware-2.6.32-220.17.1.el6.noarch.rpm， 因 为 所 有 的 服务 器 都 需要 这 样 的 内 核 升 级 ， 所 以 就 能 直接 写 在 %post%end 中 。 


$post 

cd /root 

wget http://172.16.100.100/kernel-2.6.32-220.17.1.e16.x86 64.rpm 

wget http://172.16.100.100/kernel-firmware-2.6.32-220.17.1.e16.noarch.rpm 
rpm -ivh kernel-2.6.32-220.17.1.e16.x86 64.rpm 

rpm -ivh kernel-firmware-2.6.32-220.17.1.e16.noarch.rpm 

Send 


上 面 举 的 只 是 一 个 非常 简单 的 内 核 升级 任务 ，post-installation 可 以 做 到 事情 还 有 很 多 很 多 ， 读 者 朋友 甚至 可 以 将 前 期 脚本 放 在 里 面 ， 在 系统 安装 完成 之 后 ， 直 接 就 执行 。 最 后 拿 到 的 系统 ， 就 能 直接 
了 。 


最 佳 实践 86: 系统 配置 参数 优化 


在 系统 安装 完成 之 后 ， 通 常 都 需要 对 系统 的 一 些 默认 参数 进行 调整 ， 以 使 系统 能 在 最 佳 的 配置 环境 中 运行 。 参 数 优化 中 最 常用 的 就 是 内 核 运行 参数 的 调整 ， 在 不 同 的 应 用 场景 中 会 有 各 自 的 侧重 ， 通 过 
sysctl-a 可 以 查看 当前 系统 运行 内 核 中 的 所 有 配置 参数 ， 更 改 /etc/sysctl.conf 文 件 以 便 长 久保 存 参数 优化 项 ， 通 过 sysctl-p 生 效 配置 。 


对 于 不 同类 型 的 服务 器 ， 对 系统 的 压力 以 及 资源 的 消耗 方面 是 不 一 样 的 ， 本 节 将 从 服务 器 类 型 出 发 ， 介 绍 在 不 同类 型 的 服务 器 中 如 何 调整 这 些 参数 以 及 参数 意义 。 


Web 服 务 器 中 的 参数 优化 


Web 服 务 器 数量 非常 巨大 ， 从 一 个 小 的 个 人 站 点 ， 到 大 型 网 站 ， 都 是 必须 有 Web 服 务 器 。 这 类 服务 器 都 有 一 些 共同 点 ， 以 下 列 出 几 点 。 
“ 网 络 连接 压力 。 
“ 服务 器 处 理 请 求 压力 。 


“ 硬盘 读 压 力 。 


网 络 压力 来 自 于 Web 服 务 器 对 用 户 的 所 有 响应 都 需要 通过 网 络 来 传递 给 用 户 。 


对 于 服务 器 来 说 ， 的 每 发 出 一 次 请 求 ， 服 务 器 就 需要 做 一 次 响应 ， 很 多 用 户 请 求 的 时 候 ， 服 务 器 就 需要 耗费 CPU、 内 存 资源 来 处 理 。 


硬盘 读 写 压力 ， 对 于 一 些小 的 网 站 ， 他 们 的 站 点 ， 不 足以 使 用 CDN (内 容 分 发 网 络 ) ， 那 么 所 有 的 页 面 ， 图 片 都 是 放 在 Web 服 务 器 上 的 ， 此 时 用 户 的 访问 ， 对 于 Web 服 务 器 来 说 ， 就 需要 不 断 地 读 取 硬 
盘 里 面 的 东西 来 响应 用 户 的 请 求 。 


在 Web 服 务 器 中 ， 服 务 器 承载 量 和 DDOS (分 布 式 拒绝 服务 ) 攻击 ， 是 比较 受 关注 的 两 个 点 ， 在 Linux 内 核 参数 配置 中 ， 也 有 对 应 的 配置 参数 可 以 优化 ， 以 下 就 来 逐一 介绍 。 
1.tcp max syn backlog 


在 /etc/sysctl.conf 中 配置 项 为 net.ipv4.tcp_max_syn_backlog， 默 认 的 配置 大 小 是 1024。 


[root@localhost ~]# sysctl -a |grep max syn 
net.ipv4.tcp max syn backlog = 1024 


为 了 更 好 地 理解 net.ipv4.tcp_max_syn_backlog 参 数 的 意义 ， 先 来 介绍 几 个 概念 。 


先 说 TCP 三 次 握手 原理 ， 第 一 次 : 客户 端 向 服务 器 发 送 SYN 同 步 信息 请 求 连 接 ; 第 二 次 : 服务 器 收 到 客户 端的 请 求 之 后 回应 客户 端 SYN+ACK 信 息 ; 第 三 次 : 客户 端 确认 服务 器 的 响应 ACK。 经 过 三 次 握 
手 之 后 ，TCP 连 接 建立 完成 ， 接 着 就 可 以 开始 传递 数据 了 。 


再 介绍 一 下 SYN flood 攻 击 ，SYN flood 也 称 SYN 泛 洪 攻击 ， 是 一 种 阻 断 服务 器 攻击 ， 它 的 原理 就 是 在 TCP 三 次 握手 中 阻 断 第 三 次 握手 。 阻 断 方 式 有 以 下 两 种 。 


1) 第 三 次 握手 过 程 中 ， 客 户 端 不 向 服务 器 返回 ACK 信 息 ， 连 接 无 法 建立 。 


2) 第 一 次 握手 客户 端 向 服务 器 发 出 请 求 的 时 候 伪造 了 一 个 IP 地 址 ， 使 服务 器 响应 这 个 伪造 的 !P， 伪 造 的 IP 不 可 能 给 服务 器 ACK 和 确认， 连接 无 法 建立 。 


在 服务 器 等 待 客户 端 ACK 确 认 的 时 候 ， 在 服务 器 上 就 会 产生 SYN_RECV 连 接 也 称 半 开 通 连接 ，net.ipv4.tcp_max_syn_backlog 参 数 的 配置 决定 了 服务 器 最 大 的 SYN_RECV 连 接 数 量 ， 一 旦 达到 这 个 最 大 
È, 之 后 再 有 TCP 请 求 ， 服 务 器 都 不 再 响应 请 求 了 。 上 默认 是 1024， 通 常情 况 下 可 以 配置 为 2048 或 者 4096。 增 加 net.ipv4.tcp_max_syn_backlog 可 以 增加 服务 器 抗 攻 击 能 力 ， 但 是 同时 也 会 增加 服务 器 的 资 
源 消耗 。 


2.tcp_syncookies 


在 /etc/sysctl.conf 配 置 文件 中 net.ipv4.tcp_syncookies=0 或 者 1， 使 用 如 下 命令 检查 当前 配置 。 


[root@localhost ~]# sysctl -a |grep net.ipv4.tcp syncookies 
net.ipv4.tcp syncookies = 1 


net.ipv4.tcp_syncookies 配 置 为 1 表示 开始 SYN Cookie 功 能 ， 早 期 的 系统 需要 手动 开启 该 配置 项 ，SYN Cookie 的 原理 是 当 服务 器 出 现 tcp_max_syn_backlog 配 置 的 SYN 等 待 队列 溢出 时 ， 服 务 器 在 收 
到 TCP SYN 包 ， 返 回 TCP SYN+ACK 包 时 不 再 直接 分 配 资源 等 待 响应 ， 而 是 通过 这 个 SYN 包 计算 一 个 cookie 值 ， 如 果 是 正常 的 客户 端 访 问 ， 客 户 端 会 返回 TCP ACK 包 ， 此 时 服务 器 再 通过 检查 返回 的 cookie 
值 的 合法 性 决定 是 否 分 配 资源 ， 启 动 SYN Cookie 可 以 在 一 定 程度 上 抵御 SYN Flood 攻 击 。 


3.tcp synack retries 


在 /etc/sysctl.conf 中 配置 项 为 net.ipv4.tcp_synack _retries=0 到 255， 默 认 是 5。 


[root(localhost ~]# sysctl -algrep tcp synack retries 
net.ipv4.tcp synack retries = 


net.ipv4.tcp_synack_retries 的 功能 是 告诉 Linux 内 核 在 TCP 连 接 过 程 中 ， 第 二 步 服务 器 响应 了 客户 端 并 向 客户 端 发 送 TCP SYN+ACK 包 之 后 ， 如 果 没 有 得 到 客户 端的 TCP ACK 请 求 ， 那 么 服务 器 会 重 ; 
多 少 次， 每 次 重 传 等 待 时 间 在 30s 到 40s 之 间 ， 默 认 tcp_synack _retries 的 重 传 次 数 为 5 次 ， 耗 时 在 180s 左 右 ， 通 过 将 tcp_synack_retries 调 小 的 方式 ， 可 以 抵御 一 定 范围 的 SYN Flood 攻 击 。 常 用 的 配置 为 


netipv4.tcp synack retries=3 


Eis 


4.somaxconn 


在 /etc/sysctl.conf 中 配置 项 为 net.core.somaxconn， 默 认 值 是 128。 


[root@localhost ~]# sysctl -a |grep somaxconn 
net.core.somaxconn = 12 


net.core.somaxconn 表 示 socket 连 接 队 列 的 最 大 值 ， 通 俗 地 说 就 是 一 个 监听 端口 的 最 大 监听 队列 长 度 。 当 客户 端 和 服务 器 完成 TCP 三 次 握手 ， 建 立 连接 之 后 ， 服 务 器 应 用 程序 未 接管 该 连接 之 前 ， 这 个 
状态 的 socket 连 接 就 处 于 socket 连 接 队列 中 ， 应 用 程序 接管 之 后 ， 该 socket 连 接 将 从 socket 连 接 队列 中 去 除 。 


举 个 例子 说 明 ，socket 连 接 队列 有 如 一 个 桶 ，TCP 连 接 建立 之 后 ，socket 连 接 就 到 这 个 桶 里 ， 然 后 Web 应 用 程序 ， 比 如 Apache、Nginx 就 从 这 个 桶 里 取 建 立 完 TCP 连 接 的 socket， 一 边 在 放 ， 一 边 在 
取 ， 如 果 Web 服 务 器 面临 突 发 的 压力 ， 这 个 队列 就 能 起 到 一 些 缓冲 的 作用 。 所 以 在 Web 服 务 器 压力 低 的 情况 下 ，socket 连 接 队 列 会 很 小 。 配 置 这 个 值 ， 可 以 增加 服务 器 的 性 能 ， 通 常 这 个 值 的 配置 会 比 
net.ipv4.tcp_max_syn_backlog 小 ， 比 如 1000,， 或 者 1024 也 比较 常用 。 


DB 服务 器 中 的 参数 优化 


DB (Database， 数 据 库 ) 服务 器 ， 这 类 服务 器 读者 朋友 肯定 不 陌生 ， 各 类 的 数据 库 软件 包括 Oracle、MySQL、MariaDB、PostgreSQL、SQL Server、SQLite 等 非常 多 。 


在 现在 这 个 时 代 ， 数 据 的 重要 性 ， 已 经 是 不 言 而 喻 的 ， 不 可 否认 它 有 其 特殊 性 ， 其 中 最 典型 的 负载 就 是 IO 压力 ， 以 至 于 在 KVM 虚 拟 化 已 经 非常 成 熟 的 当下 ，DB 服 务 器 虚拟 化 依然 是 一 块 最 难 哺 的 骨 
头 ， 在 游戏 行业 ， 虽 然 有 已 经 有 游戏 DB 服务 器 开始 运行 在 KVM 虚 拟 机 上 ， 但 针对 核心 业务 或 者 核心 数据 库 ， 运 行 在 虚拟 机 里 的 非常 少 。 


性 能 和 可 用 性 是 衡量 DB 服务 器 可 靠 性 的 重要 标准 。 本 节 将 介绍 针对 DB 服务 器 如 何 进行 内 核 参数 优化 来 提升 DB 服务 器 的 性 能 进行 介绍 。 


1.Swappiness 


在 /etc/sysctl.conf 中 配置 项 为 vm.swappiness=0 到 100。 


[root@localhost ~]# sysctl -algrep vm.swappiness 
vm.swappiness = 60 


在 Linux 系 统 安装 的 时 候 ， 必 须 指定 一 个 swap 分 区 大 小 ，swap 的 作用 是 在 系统 内 存 不 够 的 情况 下 ， 当 临时 的 内 存 来 使 用 ， 因 为 swap 分 区 是 在 硬盘 上 的 ， 所 以 性 能 上 原 没有 实际 的 内 存 好 ，swappiness 
是 一 个 用 于 配置 Linux 内 核 如 何 使 用 swap 分 区 的 参数 ，CentOS 系 统 中 默认 配置 是 60， 它 表示 当 系 统 内 存 使 用 超过 409% (通过 1-60% 得 到 ) 的 时 候 ，swap 空 间 将 被 使 用 。 而 系统 一 旦 开始 使 用 swap 分 区 就 会 
对 磁盘 带 来 很 大 负载 ， 那 么 DB 的 性 能 也 将 随 之 降低 ， 所 以 对 于 DB 服务 器 ， 都 会 禁止 系统 使 用 swap 空 间 ， 配 置 vm.swappiness=0。 


2.Scheduler 


Scheduler (调度 ) ， 这 里 特 指 的 是 磁盘 的 IO 调度 算法 ， 下 面 先 介绍 一 下 Linux 的 几 种 IO 调度 算法 。 


查看 当前 系统 硬盘 sda 的 1O 调 度 算法 。 


[rootülocalhost ~]# cat /sys/block/sda/queue/scheduler 
noop anticipatory deadline [cfq] 


其 中 : 


“ noop (No Operation， 电 梯 式 调度 算法 ) : 它 的 原理 很 简单 ， 通 过 一 个 简单 的 FIFO (先进 先 出 ) 队列 将 请 求 按 先 来 先 处 理 的 顺序 处 理 ， 但 对 于 相 邻 的 IO 请 求 ，noop 算 法 会 先进 行 合并 再 处 理 。 在 机 械 
硬盘 时 代 ， 数 据 的 读 取 需 要 磁头 在 硬盘 磁道 上 不 断 地 来 回 摆动 来 完成 读 取 ， 而 noop 算 法 则 是 写 优先 的 调度 算法 ， 所 以 读 的 性 能 表现 不 佳 。 但 目前 ，SSD 正 在 逐步 普及 ，SSD 磁 盘 不 同 于 传统 的 机 械 硬盘 ， 靠 磁 
头 在 高 速 旋转 的 磁盘 上 运动 来 读 取 数 据 ，SSD 通 过 LBA (Logcal Block Address, 3£4pH53E3k) 来 访问 数据 ， 性 能 远 远 高 于 机 械 硬盘 。 


* cfq (Completely Fair Queuing， 完 全 公平 队列 ) : 在 Linux Kernel 2.6.18 内 核 之 后 的 2.6 系 列 内 核 中 ，cfq 是 默认 的 IO 调度 算法 ， 它 为 每 一 个 进程 创建 一 个 队列 来 处 理 这 个 进程 所 有 的 IO 请 求 ， 然 后 再 分 配 
CPU 时 间 来 处 理 这 些 队列 ， 这 种 做 法 可 以 确保 每 个 进程 都 能 很 好 地 获得 IO 带宽 。CPU 处 理 时 间 片 和 IO 请 求 队列 的 数量 都 是 可 以 通过 IO 优先 级 来 控制 的 。 大 多 数 情况 下 ，cfq 可 以 提供 较 好 的 IO 吞吐 性 能 。 


- deadline: 最 后 期 限 调度 算法 。 在 RedHat 7 系统 开始 ，Deadline 调 度 算法 成 为 默认 的 磁盘 调度 算法 ， 它 为 了 保证 每 个 IO 请 求 都 能 在 deadline (最 后 期 限 ) 之 前 得 到 处 理 以 避免 出 现 IO 饿 死 的 情况 。deadline 
调度 算法 为 读 和 写 分 别 创建 了 一 个 deadline 队 列 ， 默 认 情 况 下 读 操 作 的 deadline 时 间 是 500ms， 写 操作 的 deadline 时 间 是 5s， 并 且 读 队 列 被 赋予 较 高 的 优先 级 ， 因 为 进程 通常 会 阻止 读 操作 。 在 每 次 IO 请 求 完 成 之 
后 ， 下 一 次 IO 操作 之 前 ，deadline 算 法 会 判断 两 个 deadline 队 列 中 是 否 有 即将 到 期 的 请 求 ， 这 些 请 求 会 被 优先 处 理 ， 确 保 该 IO 请 求 不 被 饿 死 。 


- anticipatory: 预测 IO 调度 算法 。 在 Linux Kernel 2.6.0 至 2.6.18 版 本 中 ，anticipatory 是 默认 的 磁盘 调度 算法 ， 但 在 Linux Kernel 2.6.33 之 后 不 再 用 这 种 调度 算法 。 它 的 原理 是 在 每 次 完成 IO 请 求 ， 开 始 新 的 IO 
操作 之 前 设置 了 6ms 等 待 ， 如 果 在 6ms 之 内 收 到 读 IO 的 请 求 ，anticipatory 调 度 算法 就 可 以 立即 满足 这 个 请 求 。 


上 述 4 种 磁盘 调度 算法 ， 都 是 经 历 了 很 长 时 间 的 发 展 和 改进 才 逐 步 成 熟 的 ， 之 后 也 将 不 断 地 推陈出新 。 那 么 针对 DB 服务 器 ， 我 们 应 该 怎么 调整 磁盘 调度 算法 呢 ? 


分 以 下 两 个 场景 来 看 这 个 问题 。 


1) DB 服务 器 上 配置 了 SSD 硬 盘 ， 那 么 这 种 场景 下 ，NOOP 算 法 是 最 优 的 ， 因 为 


[root@localhost ~]# echo 'noop' »/sys/block/sda/queue/scheduler 
[rootülocalhost ~]# cat /sys/block/sda/queue/scheduler 


2) DB 服务 器 上 配置 的 就 是 普通 的 SAS 盘 ， 这 种 场景 下 ，Deadline 是 最 优 的 ， 这 也 是 MySQL 标 准 调 优 中 常用 的 调 优 参数 。 配 置 方法 如 下 。 


[noop] anticipatory deadline cfq ”// 已 经 改 成 了 noop 算 法 


数据 不 涉及 磁盘 转动 ， 磁 头 定位 


[rootülocalhost ~]# echo 'deadline' »/sys/block/sda/queue/scheduler 


[rootülocalhost ~]# cat /sys/block/sda/queue/scheduler 
// 已 经 改 成 了 deadline 算 法 


noop anticipatory [deadline] cfq 


在 /etc/rc.local 里 面 加 入 echo'deadline'>/sys/block/sda/queue/scheduler， 下 次 开机 直接 生效 。 


NUMA 


NUMA (Non-Uniform Memory Access， 非 一 致 性 内 存 访问 ) ， 它 是 随 着 CPU 的 发 


ym 


fr). 


SMP 架 构 规定 所有 CPU 共享 全 部 资源 ， 包 括 总 线 、 内 存 和 IO 系统 等 ， 每 个 C 


限 ， 增 加 CPU 数量 会 导致 总 线 带宽 成 为 瓶颈 。 


MMP 架 构 的 基本 特征 是 将 多 个 SMP 架 构 的 服务 器 通过 网 络 连 接 在 一 起 ， 从 


整 和 平衡 负载 ， 较 为 复杂 。 


等 的 地 位 。SMP 架 构 的 优点 在 3 较 高 的 并 行 度 ， 缺 点 在 


展 趋势 而 出 现 的 一 种 架构 。 为 了 更 好 地 理解 NUMA 架 构 ， 先 提 一 下 SMP (对 称 多 处 理 器 ) 和 MMP (大 规模 并 


统 总 线 实现 资源 共享 ， 而 总 线 带 宽 有 


户 角 度 看 到 的 是 一 个 服务 器 系统 ， 但 内 部 ， 每 个 SMP 之 间 资 源 是 不 能 互 访 的 。 实 际 的 调度 协同 工作 ， 需 要 在 应 


由 于 SMP 架 构 扩展 性 差 ，NMP 架 构 应 F 


场景 复杂 ，NUMA 就 是 为 了 平衡 这 两 者 ， 在 NUMA 架 构 中 ， 每 个 CPU 都 


CPU 之 间 的 资源 是 可 以 互 访 的 ， 但 是 NUMA 
访问 的 原因 。 


对 于 DB 服务 器 ， 为 了 提高 DB 服务 器 的 性 能 ， 往 往 会 配置 较 大 的 内 存 ， 比 放 


举 个 例子 说 一 下 。 


假如 DB 服务 器 是 双 CPU， 内 存 96GB， 那 么 在 NUMA 架 构 中 ， 每 个 CPU 会 分 配 到 48GB 内 存 ， 这 48GB 内 存 称 为 本 地 内 存 ， 此 时 在 这 人 台 DB 服 务 器 上 起 一 个 数据 库 实 例 分 配 内 存 64GB， 


的 特点 在 于 ， 当 一 个 CPU 访问 其 自身 的 内 存 资源 时 响应 速度 非常 快 ， 但 当 它 访问 


其 他 CPU 的 内 存 资 源 时 响应 速 


048GB 或 者 64GB 等 。 


面 做 调 


、1/O 系 统 ， 相 互 之 间 的 访问 通过 互联 模块 实现 ， 也 就 是 说 多 个 
度 会 变 慢 ， 这 也 就 是 我 们 把 它 称 之 为 非 一 致 性 内 存 


因为 这 台 DB 服 务 器 


的 内 存 总 量 是 96GB， 所 以 启 一 个 64GB 内 存 的 数据 库 应 该 是 绰绰有余 的 。 但 是 ， 由 于 NUMA 架 构 的 关系 ， 会 出 现 一 个 被 称 为 swap insanity 的 问题 ， 读 者 朋友 可 以 搜索 一 下 ， 是 一 个 非常 有 名 的 案例 。 系 统 会 


是 NUMA 架 构 中 会 优先 使 


在 内 存 还 充足 的 情况 下 大 量 使 用 swap， 严 重 降低 数据 库 性 能 。 
访问 这 部 分 被 交换 出 去 的 内 存 时 ， 就 会 导致 拥塞 。D 


所 以 对 于 DB 服务 器 ， 建 议 关 闭 NUMA 特 性 ， 关 


举例 HP 380G8 的 服务 器 。 


[root(localhost ~]# numactl --hardware // 查 看 当前 系统 numa 是 否 打开 


available: 2 nodes (0-1) 


node 0 cpus: 01234512131415 16 17 
node 0 size: 24541 MB 

node 0 free: 6670 MB 

node 1 cpus: 6 7 8 9 10 11 18 19 20 21 22 23 
node 1 size: 24575 MB 

node 1 free: 15003 MB 


node distances: 
node 0 1 

0: 10 20 

1: 20 10 


从 输出 结果 看 ， 当 前 服务 器 中 有 node0 和 node1 两 个 NUMA 节 点 ， 各 使 


CPU 本 地 的 内 存 ， 如 果 本 地 内 存 不 够 的 时 候 ， 它 首先 尝试 的 是 将 本 地 内 存 中 不 用 的 部 分 交换 出 去 ， 而 此 时 再 
B 的 性 能 就 明显 下 降 了 。 


闭 操作 需 在 BIOS 里 


重启 服务 器 进入 BIOS， 在 Advanced Options 一 Advanced Performance Tuning Options 一 Node Interleaving 菜 和 
CPU 节点 交错 将 允许 所 有 节点 具有 相同 的 内 存 大 小 (也 就 是 共享 所 有 内 存 ) 。 默 认 是 disable 的 ， 改 为 enable。 


17-6 所 示 ， 人 允许 CPU 节 点 交错 可 1 


响 操作 系统 性 能 。 人 允许 
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图 17-6 HP 380gen8 X HINUMA 


打开 Node Interleaving， 也 就 是 关闭 了 NUMA， 进 入 系统 ， 使 用 numactl--hardware 查 看 。 


[root@localhost ~]# numactl --hardware 
available: 1 nodes (0) 
node 0cpus: 012345678 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 
node 0 size: 49117 MB 
node 0 free: 47683 MB 
node distances: 
node 0 
0: 10 


从 输出 可 以 看 到 ， 当 前 系统 只 有 一 个 node 节 点 ， 共 享 48GB 内 存 ， 
Oze 
不 同型 号 的 服务 器 在 BIOS 中 关闭 NUMA 的 方式 略 有 不 同 ， 详 细 的 可 以 咨询 厂商 。 


KVM 宿 主机 中 的 参数 优化 


KVM (Kernel-based Virtual Machine， 基 于 内 核 的 虚拟 机 ) 虚拟 化 技术 发 展 至 今 ， 已 经 变 得 非常 成 熟 和 稳定 了 ，KVM 也 几乎 成 为 所 有 公有 云 厂 商 一 致 的 选择 。 对 于 有 一 定 资源 和 技术 实力 的 公司 ， 
很 多 都 会 尝试 用 KVM 来 搭建 属于 自己 的 私有 云 ， 虽 然 现在 公有 云 的 选择 有 很 多 ， 但 出 于 安全 考虑 ， 敏 感 系统 、 重 要 数据 还 是 不 放心 直接 放 到 公有 云 上 去 。 


本 节 的 重点 就 是 为 读者 朋友 解答 ， 如 果 要 将 一 台 服 务 器 用 作 KVM 宿 主机 ， 哪 些 系统 参数 需要 进行 优化 ?为 什么 要 这 么 做 ”以 下 将 会 重点 介绍 3 个 重要 优化 项 。 


1.nf conntrack max 
在 /etc/sysctl.conf 文 件 中 对 应 的 配置 项 为 net.nf_ conntrack max, 
需要 说 明 一 下 ， 如 果 宿 主机 系统 是 CentOS5.0 系 列 ， 内 核 2.6.18.x 版 本 ， 该 配置 项 名 为 ip_conntrack_max，CentOS6.0 系 列 之 后 该 配置 项 更 名 为 nf conntrack max, 
Oir 
ip_conntrack 仅 支持 IPv4，nf_conntrack 支 持 IPv4 和 IPv6， 所 以 在 CentOS6.0 系 列 之 后 ，ip_conntrack 被 nf_conntrack 所 取代 ， 在 sysctl.conf 中 ，ip_conntrack_* 已 被 nf_conntrack_* 取 代 。 


在 CentOS6.0 系 统 中 查看 默认 的 nf_conntrack_max 值 为 65536。 


[root@localhost ~]# sysctl -a |grep net.nf conntrack max 
net.nf conntrack max = 65536 


nf_conntrack_max 这 个 值 与 nf_ conntrack_buckets 有 关系 ， 默 认 nf_conntrack_buckets=16384，nf_conntrack_max 的 值 默认 是 nf_ conntrack_buckets 的 4 倍 ， 在 调整 nf conntrack_max 值 时 ， 比 
如 内 存 32GB 的 宿主 机 ， 那 么 nf conntrack_max 最 大 可 以 调整 为 32*16384*4=2097152， 这 是 一 个 建议 的 修改 的 上 限 值 ， 实 际 修改 的 时 候 ， 在 这 个 范围 内 修改 即 可 。 


下 面 解释 一 下 ， 这 个 参数 的 含义 。 


nf conntrack 是 一 个 与 iptables 有 关 的 模块 ，nf_conntrack 模 块 通过 一 个 hash 表 来 记录 TCP 通 信 过 程 中 连接 的 状态 信息 ， 如 果 这 个 表 满 的 时 候 ， 在 /vavlog/message 中 会 出 现 table full 的 提示 。 


[root(kvm-host-198 ~]# cat /war/log/messages |grep -i full 

Dec 6 03:21:02 kvm-host-198 kernel: nf conntrack: table full, dropping packet. 
Dec 6 03:21:02 kvm-host-198 kernel: nf conntrack: table full, dropping packet. 
[rootGkvm-host-198 ~]# cat /proc/net/nf conntrack|wc -1 

127060 // 查 看 当前 系统 的 nf_conntrack Kh, 127060 大 于 65536 的 默认 值 


对 于 宿主 机 来 说， 上 面 会 运行 多 台 虚 拟 机 ， 这 个 表 就 很 容易 满 ， 读 者 朋友 如 果 在 宿主 机 上 也 发 现 了 如 上 的 提示 ， 便 可 以 根据 内 存 大 小 ， 调 整 nf conntrack_max 的 值 。 关 于 该 选项 的 详细 讲解 ， 请 参阅 本 
书 “ 第 16 章 深度 实践 iptables” 的 相关 内 容 。 


Qe 
增加 nf_conntrack_max 值 会 消耗 额外 的 内 存 。 
在 某 些 环境 上 ， 如 果 宿 主机 并 没有 开启 iptables， 那 么 这 项 配置 可 以 忽略 。 


2.bridge-nf-* 


关于 bridge-netfilter 的 常用 配置 项 在 /etc/sysctl.conf 文 件 中 有 如 下 几 项 : 


net.bridge.bridge-nf-call-arptables-1 
net.bridge.bridge-nf-call-ip6tables-1 
net.bridge.bridge-nf-call-iptables-1 


默认 情况 下 ， 这 些 项 都 是 0。 


在 KVM 宿 主机 中 ， 虚 拟 机 与 外 部 通信 有 几 种 网 络 模式 ，Bridge、MacVTap、PCI-passthrough、SR-IOV 还 有 OVS， 其 中 Bridge (网 桥 ) 是 其 中 最 为 常用 的 一 种 模式 。 关 于 其 他 几 种 默认 ， 有 兴趣 的 读 
者 朋友 可 以 参考 《深度 实践 KVM》 一 书 ， 其 中 有 非常 详细 的 说 明 。 


在 Bridge 模 式 中 ， 所 有 的 虚拟 机 网 卡 都 是 连接 在 宿主 机 的 网 桥 之 上 。net.bridge.bridge-nf-call-arptables、net.bridge.bridge-nf-call-ip6tables、net.bridge.bridge-nf-call-iptables 这 三 个 参数 的 设 
置 ， 决 定 虚拟 机 内 的 数据 包 是 否 会 流转 到 宿主 机 的 iptables 策 略 中 ， 默 认 这 三 个 参数 都 是 0， 表 示 不 经 过 宿主 机 的 iptables。 改 成 1 之 后 ， 所 有 虚拟 机 内 的 网 络 数据 包 都 会 先 通过 宿主 机 的 iptables 再 到 虚拟 
机 。 


libvirt 是 常用 的 KVM 虚 拟 机 管理 工具 ， 它 的 功能 非常 强大 ， 并 且 提供 Network Filters 也 就 是 防火 墙 功 能 ， 通 过 简单 的 规则 配置 ， 就 能 实现 一 个 功能 强大 的 防火 墙 ， 详 见 libvirt 官 
网 http://libvirt.org/formatnwfilter.html。 但 是 ， 需 要 注意 ， 在 使 用 libvirt 防 火 墙 时 必须 打开 上 述 三 项 配置 ，libvirt 定 义 的 防火 墙 策 略 才能 生效 。 因 为 ，libvirt 的 防火 墙 功 能 就 是 基于 iptables 和 ebtables 来 
实现 的 。 


对 于 KVM 宿 主机 ， 如 果 你 需要 使 用 libvirt 的 防火 墙 功 能 ， 那 么 net.bridge.bridge-nf-call-arptables、net.bridge.bridge-nf-call-ip6tables、net.bridge.bridge-nf-call-iptables 这 三 项 配置 必须 为 1。 


本 章 小 结 


本 章 从 系统 安装 和 服务 器 系统 配置 参数 优化 两 个 方面 做 了 介绍 。 除 本 章 介绍 的 内 容 外 ， 系 统 配 置 参数 优化 部 分 还 有 很 多 可 以 优化 的 项 ， 由 于 篇 幅 和 笔者 水 平 有 限 ， 无 法 全 部 罗列 。 


本 章 作 为 基础 ， 为 之 后 的 章节 做 一 个 铺垫 ， 在 接 下 来 的 章节 中 ， 将 详细 介绍 运 维 自动 化 技术 。 


第 18 章 ”利用 Perl 编 程 实施 高 效 运 维 


我 们 为 什么 需要 学 习 Perdl 编 程 ? 
因为 在 下 面 的 一 些 场景 中 ， 需 要 使 用 Ped 开 发 一 些 自 定义 的 程序 来 满足 需求 。 


“ 在 和 运 维 工作 中 ， 经 常会 遇 到 需要 对 大 数据 进行 分 析 的 情况 ， 例 如 在 海量 的 访问 日 志 数据 中 分 析 与 统计 不 同 用 户 的 访问 行为 。 这 个 情况 下 ， 仅 仅 使 用 awK、sed 和 grep 是 很 困难 完成 的 ， 首 先 编写 程序 会 很 
复杂 ， 其 次 使 用 这 些 工具 会 导致 执行 效率 低下 ， 特 别 是 数据 量 远 大 于 服务 器 物理 内 存 时 ， 这 3 个 工具 加 载 文件 内 容 到 内 存 的 过 程 会 非常 耗 时 和 引起 系统 内 存 不 足 的 情况 。Pedl 天 生 是 为 了 处 理 文本 而 存在 ， 结 
合 正则 表达 式 可 以 有 效 地 分 析 剥 离 海 量 数据 中 的 有 效 成 分 ; 同时 ， 使 用 按 需 加 载 文件 ， 可 以 高 效 地 利用 有 限 的 系统 内 存 。 


:我们 会 经 常 需要 写 一 些 服务 器 批量 管理 工具 ， 这 时 再 用 shell 中 的 for 循 环 逐 一 执行 会 导致 耗 时 较 长 。 利 用 Petl， 可 以 方便 地 进行 多 进程 编程 ， 极 大 地 提高 执行 效率 。 


“ 对 于 各 种 各 样 的 系统 服务 ， 在 需要 编写 自 定 义 程序 进行 性 能 采集 和 监控 时 ， 使 用 shell 会 显得 力不从心 ， 因 为 它 缺 少 良好 的 精细 化 控制 和 对 输出 结果 的 高 效 解析 ， 而 Ped 良 好 的 生态 圈 提 供 了 丰富 的 库 ， 
让 我 们 不 用 再 “ 造 轮 予 ”， 让 我 们 站 在 社区 为 我 们 铺 好 的 基石 上 快速 前 行 。 利 用 别人 写 好 的 成 熟 的 库 ， 我 们 不 用 再 关注 底层 实现 ， 继 而 可 以 把 注意 力 放 在 业务 逻辑 上 来 ， 同 时 可 以 提高 代码 编写 效率 。 


熟练 使 用 Perl 编 程 ， 可 以 提高 运 维 效率 ， 让 我 们 在 运 维 工作 中 更 加 得 心 应 手 。 本 章 不 对 Pe 编程 的 基础 进行 详细 讲解 ， 而 重点 对 Per 编 程 的 技巧 和 高 级 技术 进行 深入 实践 。 通 过 本 章 的 讲解 ， 读 者 将 能 够 
掌握 利用 Perl 编 程 实施 高 效 运 维 的 所 有 核心 技术 。 


最 佳 实践 87: 多 进程 编程 技巧 


在 本 章 的 前 言 部 分 ， 提 到 使 用 Perl 可 以 进行 多 进程 编程 。 如 果 一 个 任务 涉及 大 量 不 同 的 操作 对 象 ， 例 如 批量 下 载 很 多 URL 的 文件 、 批 量 在 不 同 的 服务 器 执行 相同 的 指令 等 ， 都 可 以 使 用 多 进程 编程 。 使 
多 进程 编程 ， 可 以 得 到 以 下 好 处 。 


“ 最 大 化 服务 器 执行 效率 。 多 进程 编程 ， 可 以 充分 利用 服务 器 多 CPU 的 计算 能 力 ， 提 高 并 发 执行 的 数量 ,减少 任务 执行 的 时 间 。 


“ 某 个 子 任务 超时 或 者 失败 不 会 导致 整个 任务 时 间 增 加 。 因 为 使 用 了 多 进程 ， 每 个 进程 单独 处 理 一 个 子 任务 ， 这 样 可 以 做 到 隔离 子 任务 间 的 相互 影响 ， 某 个 子 任务 的 超时 和 失败 ， 不 会 影响 其 他 子 任务 


的 执行 等 待 时 间 。 


让 我 们 来 看 一 个 基本 的 多 进程 编程 的 实例 ， 在 该 实例 中 ， 我 们 创建 3 个 子 进程 。 


#!/u sr/bin/perl 
use strict; 
use warnings; 


print "Process ID: $$"; 


3; 
0; 


my $maxforks 
my $forks 


for ( 1 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/.. 
my $pid = fork;# 父 进程 调用 fork 函 数 ， 函 数 参 考 perldoc -f fork 
( #fork 返 回 undef， 则 说 明 创 建 子 进程 失败 ， 例 如 在 超过 了 系统 最 大 进程 数 等 的 情况 下 


if ( not defined $pid ) 
warn 'Could not fork'; 
next; 

} 

if ($pid) ( #fork 对 父 进程 的 返回 值 是 子 进程 的 进程 号 (pid) 
Sforkst*; 
print 


Smaxforks ) ( 


"In the parent process PID ($$), Child pid: $pid Num of fork child processes: $forks WM"; 


} 
else {# 进 入 子 进程 执行 代码 
print "In the child process PID ($$) Wn"; 
sleep 1; 
print "Child ($$) exiting Wn"; 
exit; 


} 


for ( 1 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/O0EBPS/Text/.. 


Sforks ) { 


my $pid = wait () ?#wait 函 数 返 回 值 为 已 完成 执行 的 子 进程 的 进程 号 (pid) ， 函 数 参 考 berldoc -f wait 


print "Parent saw $pid exiting Wn"; 
H 
print "Parent ($$) ending WM"; 


在 上 面 的 一 个 案例 中 , 使 
CPAN， 可 以 下 载 和 使 


fork 进 行 子 进程 创建 ， 然 后 在 程序 内 部 进行 了 子 进程 的 管理 (创建 数量 限制 、 子 进程 退出 状态 管理 等 ) 。 可 以 看 到 ， 这 样 操作 起 来 比较 繁杂 。 幸 运 的 是 ， 在 Perl 中 ，i 
Parallel: : ForkManager 模 块 进行 多 进程 自动 化 管理 。 在 下 面 一 个 例子 中 ,使 


该 模块 同时 启动 30 个 子 进程 登录 服务 器 拷贝 指定 文件 保存 到 对 应 的 指定 文件 夹 中 。 


#!perl 

use strict; 

use warnings; 

use Parallel::ForkManager; 
sub convert { 

my ($in) = @; 
$in =~ s/M/./g; 


$in =~ s/\:/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15829/0EBPS/Text/../g; 


return $in; 
} 
my $xiv 
my Sinputfile 


SARGV [0] ; 
'hosts ' 


. $xiv . ' all.dat'; 


open( FILEIN, '«', Sinputfile ) or die $!; 


my $pm = Parallel::ForkManager-»new (30); # 指 定 同 时 执行 的 子 进程 的 数量 上 限 是 30 


while (<FILEIN>) ( 
# 输 入 的 文件 内 容 格式 如 下 
#10.18.33.130 xiv3-nj-p001 
chomp; 
my $host; 


180.96.46.70 


if (/^([0-9](1,3]N. [0-9] (1, 3) V. [0-91 (1,3). [07-9] (1,3)) Ns (.9) ) ( 


$host = $1; 
} 
$pm->start and next;# 创 建 的 子 进程 进入 执行 周期 
my @files = ( 
'/bin/iptables.sh', 
'/etc/fstab', 
'/etc/group', 
'/etc/hosts', 
'/etc/hosts.allow', 
' /etc/modprobe .conf', 
'/etc/ntp.conf', 
'/etc/passwd', 
'/etc/rc.local', 
'/etc/rc.d/rc.local', 
'/etc/shadow', 
' /etc/snmp/snmpd.conf', 
'/etc/sudoers', 
' /etc/sysconfig/network', 
' /etc/sysconfig/network-scripts/ifcfg-bondethl', 
' /etc/sysconfig/network-scripts/ifcfg-ethO', 
' /etc/sysconfig/network-scripts/ifcfg-ethl', 
' /etc/sysconfig/network-scripts/ifcfg-1o:0', 
' /etc/sysconfig/static-routes', 
'/etc/sysctl.conf', 
'/etc/yum.conf', 
' /etc/yum. repos .d/CentOS-Base.repo', 
'/root/.bashrc', 
'/root/.ssh/authorized keys', 
'/root/iptables min forFFl4.sh', 
'/tmp/ pcheck.chkconfig3on.txt', 
'/tmp/ pcheck.rpm.txt', 
'/tmp/ pcheck.sysctl-A.txt' 


); 
system("ssh root\@$host 'rpm -qa |sort > /tmp/ 
system("ssh root\@$host 'sysctl -A |sort > /tmp 


check.rpm.txt'"); 
pcheck.sysctl-A.txt'"); 


system("ssh rootVéS$host 'chkconfig —-list|grep '3:on'|sort > /tmp/ pcheck.chkconfig3on.txt'"); 


foreach my $file (8files) { 
my $converted - &convert ($file); 
system("mkdir -p /tmp/checklog/S$xiv/$converted/"); 


system("scp root\@$host:$file /tmp/checklog/$xiv/$converted/Shost.txt"); 


} 
$pm->finish;# 结 束 子 进程 执行 


} 
close(FILEIN); # 父 进程 关闭 文件 描述 符 
$pm->wait_all_children;# 等 待 所 有 子 进程 执行 完成 


最 佳 实践 88: 调整 Socket 编 程 的 超时 时 间 


为 什么 设置 Socket 超 时 


在 编写 网 络 程序 时 ， 确 定 系统 快速 响应 十 分 重要 ,例如 在 检查 服务 可 


状态 时 ， 只 有 在 指定 的 时 间 内 服务 器 有 数据 返回 才 可 以 确定 是 正常 工作 的 。 通 过 设置 合理 的 超时 时 间 ， 能 够 让 调 


程序 快速 返 


回 ， 以 执行 后 续 的 逻辑 ， 例 如 进行 报警 或 者 状态 汇总 等 。 
在 Linux 中 ， 需 要 关注 两 种 情况 下 的 超时 机 制 。 


“TCP 连接 建立 阶段 的 超时 。 内 核 通过 net.ipv4.tcp_syn_retries (默认 是 5) 来 控制 SYN 重 传 的 次 数 ， 如 图 18-1 所 示 ， 尝 试 完整 个 重 传 次 数 的 时 间 消 耗 约 93s (文件 : timeout.pcap) o 


Time Source Destination Protocol Length Info 
1 0.000000 10.1.6.38 10.1.6.28 TCP 74 53321 S5eq-3512387766 
2.999993  10.1.6.38 10.1.6.28 TCP 74 53321 Seq-3512387766 
.999619  10.1.6.38 TCP 74 53321 Seq-3512387766 


4.999783 210.1.6.38 TCP 74 53321 Seq-3512387766 
93.000276 10.1.6.38 TCP 74 53321 Seq-3512387766 


图 18-1 TCP 连 接 建 立 阶段 的 超时 机 制 
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4 21.000020 10.1.6.38 TCP 74 53321 Seq-3512387766 
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“TCP 连接 建立 后 在 Socket 上 读 写 的 超时 。 读 超时 ， 是 指 等 待 Socket 对 端 产生 数据 的 时 间 (如 一 个 应 用 程序 可 以 接受 连接 ， 但 无 法 响应 用 户 的 请 求 时 ， 则 对 客户 端 来 说 ， 读 超时 就 起 作用 ) ; 写 超时 ， 是 
指 Socket 本 端 写 入 数据 的 时 间 。 


设置 Socket 超 时 的 方法 


针对 上 述 提 到 的 2 种 情况 下 的 超时 机 制 ， 在 Perl 中 ， 使 用 如 下 方式 即 可 设置 合理 的 超时 时 间 : 


#!/usr/bin/perl 
use strict; 
use warnings; 
use Socket; 
use IO::Socket::INET; 
my $timeout connect ; 
my $timeout read write = 3.5; 
my $socket 7 IO: :Socket: : INET-»new ( 
PeerHost => '10.1.6.28', 
PeerPort => 80, 
Timeout => $timeout_connect，#TCP 连 接 建立 阶段 的 超时 设置 


); 


my seconds = int(Stimeout read write); 


my $useconds = int( 1_000_000 * ( $timeout_read write - $seconds ) ); 
my $timeout = pack( Tin, ae $useconds ); 


$socket-»setsockopt( SOL SOCKET, SO SNDTIMEO, $timeout ) ;#TCP 连 接 建 立 后 在 Socket 上 写 超时 设置 
$socket-»setsockopt( SOL SOCKET, SO RCVTIMEO, $timeout ) ;#TCP 连 接 建立 后 在 Socket 上 读 超 时 设置 
$socket-»send("GET / HTTP/1.1\r\nHost: 10.1.6.28\r\nConnection: Close\r\n\r\n"); 

my $data = <$socket>; 

$socket-»recv( $data, 1024 ); 


最 佳 实践 89: 批量 管理 带 外 配置 


带 内 管理 与 带 外 管理 


目前 使 用 的 网 络 管理 手段 基本 上 都 是 带 内 管理 ， 也 就 是 说 管理 控制 信息 与 数据 信息 使 用 统一 物理 通道 进行 传送 。 例 如 ， 常 用 的 HP OpenView 网 络 管理 软件 就 是 典型 的 带 内 管理 系统 ， 数 据 信息 和 管理 信 
息 都 是 通过 网 络 设备 以 太 网 端口 进行 传送 。 带 内 管理 的 最 大 缺陷 在 于 : 当 操作 系统 出 现 故障 时 数据 传输 和 管理 都 无 法 正常 进行 。 


带 外 管理 的 核心 理念 在 于 通过 不 同 的 物理 通道 传送 管理 控制 信息 和 数据 信息 ， 两 者 完全 独立 、 互 不 影响 。 例 如 ， 如 果 把 网 络 管理 比喻 成 街道 ， 那 么 带 内 管理 就 是 一 条 行人 和 机 动车 共用 的 街道 ;而 带 外 
管理 就 是 一 条 把 人 行道 和 机 动车 道 分 开 的 街道 。 当 街道 机 动车 道 出 现 障碍 物 并 造成 机 动车 无 法 正常 行驶 时 ， 可 以 通过 人 行道 过 去 把 障碍 物 移 走 来 恢复 机 动车 道 的 正常 通行 。 


目前 常见 的 带 外 管理 工具 包括 以 下 2 种 。 


: HPiLO (HP Integrated Lights-Out， 惠 普 集 成 管理 工具 ) 。 


: Dell iDRAC (Integrated Dell Remote Access Controller， 集 成 戴尔 远程 控制 卡 ) o 


以 上 2 种 带 外 管理 工具 ， 都 提供 了 基于 Web 的 管理 平台 ， 使 用 浏览 器 访问 https:// 带 外 管理 地 址 即 可 进行 服务 器 管理 、 状 态 信息 查看 等 。 在 此 ， 我 们 不 再 详细 阐述 基于 Web 的 管理 方式 。 基 于 Web 的 管 
理 方式 ， 只 能 一 台 台 服务 器 进行 配置 ， 在 批量 管理 时 会 比较 慢 。 本 章 重点 讲解 使 用 Perl 编 程 进行 远程 系统 调用 的 方式 来 提高 批量 管理 的 效率 。 


HP iLO 的 批量 管理 方法 


对 HP iLO 进 行 批量 管理 需要 使 用 到 HP 提供 的 cpqlocfg.exe 这 个 工具 ， 该 工具 的 下 载 地 址 是 http://h20564.www2.hpe.com/hpsc/swd/public/detail? swltemld=MTX f9832ea2 
cc9d444bb81b0c3b4c。 这 个 工具 使 用 SSL 连 接 iLO 服 务 的 443 端 口 ， 然 后 在 此 通道 上 发 送 管理 命令 。 在 Windows 764 位 系统 上 安装 完成 后 ，cpqlocfg.exe 位 于 C: \Program Files (x86) \HP Lights-Out 
Configuration Utility 目录 下 ， 我 们 把 它 拷贝 到 c: \ 目 录 下 。 它 接受 的 参数 如 下 : 


c:\>cpqlocfg.exe -h 


HP Lights-Out Configuration Utility- CPOLOCFG v. 4.01 dated 08/28/2012 
(c) Hewlett-Packard Company, 2012 


Usage 
cpqlocfg.exe -s [servername|ipaddress]|[:port] -1 [logfilename] -f [input filename] -v -c -u [username] -p [password] -t [namel-valuel, name2-value2http://www.hzcourse.com/resov 
Where: 

-s servername is the DNS name of target servez.#iLO 的 DNS 名 称 

-s ipaddress is the IP Address of the target server.#iLO 的 ITP 地 址 

-1 logfilename is the name of the file to log all output to.# iLO 执 行 的 输出 日 志 ， 如 报错 信息 、 成 功 信 息 等 

-f input filename is the filename containing the RIB Commands# 配 置 iLO 的 XML 文件 

-v Enables verbose message logging. thi HE 

-c Will cause 人 to check for correct xml formatting,but not open a connection to the management Processor.# 仅 仅 检查 XML 文件 的 正确 性 而 不 实际 连接 1iLO 

-u username# 用 户 

-p password Command line user name and password override those which are in the script file.# 命 令 行 中 的 密码 ， 用 于 替换 XML 中 的 密码 

-t namevaluepairs Substitute variables (of the form $variable$) present in the input file with values specified in "namevaluepairs".seperate multiple namevaluepairs wi 


编写 一 个 Perl 程 序 ， 用 于 修改 iLO 的 默认 密码 和 增加 License 配 置 ， 代 码 如 下 : 


#!perl 
use strict; 
use warnings; 
open( HOST, '«', 'iLO.txt' ) or die $!; # 打 开 iLo 的 IE 列表 ， 每 行 一 个 IP 
while («HOST») { 
chomp; 
my $host $; 
my @commands ( 
"c:\\cpqlocfg.exe -s $host -v -u iLO username -p iLO password -f Change _Password.xml"，# 调 用 cpqlocfg.exe 修 改 密码 ， 新 密码 写 在 Change_Password.xml 中 
"c:\\cpqlocfg.exe -s $host -v -u iLO username -p iLO password -f License.xml "# 调 用 cpqlocfg.exe 添 加 License，License 内 容 写 在 License.xml: 


); 
foreach my $command (Gcommands) { 
system ($command) ; 
} 
} 
close (HOST); 


@w 


批量 管理 LO 时 ， 除 了 在 本 脚本 中 可 以 执行 的 2 个 功能 外 ， 还 有 其 他 大 量 的 管理 功能 可 以 使 用 cpqlocfg.exe 来 完成 。 更 多 XML 的 配置 文件 ， 可 以 从 http://xufenginfo/download/iLO.zip 下 载 。 


Dell iDRAC 的 批量 管理 方法 


批量 管理 Dell iRAC 时 ， 需 要 使 用 到 racadm.exe 这 个 工具 ， 该 工具 的 下 载 地 址 如 下 : 


http://downloads.dell.com/FOLDERO01541076M/1/OM -DRAC-Dell-Web-WINX64-7.3.0-350 _A00.exe。 下 载 安装 完成 后 ，racadm.exe 位 于 C: \Program Files\Del\SysMgt\rac5, 我们 把 它 复制 
ftc: \ 目 录 下 。 


在 Perl 中 ， 批 量 获取 iDRAC 信 息 的 代码 如 下 : 


#!perl 
use strict; 
use warnings; 
open( HOST, '«', 'iDRAC.txt' ) or die $!; # 打 开 iLO 的 IP 列 表 ， 每 行 一 个 IP 
while («HOST») ( 
chomp; 
my $host $; 
my G8commands ( 
"c:\\racadm.exe -r $host -u iRAC username -p iRAC password getsysinfo" # 获 取 iDRRAC 系 统 信息 
); 
foreach my $command (G8commands) ( 
system ($command) ; 


} 
} 
close (HOST); 


[577 


批量 管理 DRAC 时 ， 除 了 在 本 脚本 中 可 以 执行 的 功能 外 ， 还 有 其 他 大 量 的 管理 功能 可 以 使 用 racadm.exe 来 完成 ， 它 支持 的 全 部 命令 ， 可 以 参考 文档 http://xufeng.info/download/iDRAC.pdf。 


最 佳 实践 90: 推广 邮件 的 推送 优化 


推送 优化 的 思路 与 代码 分 析 


在 运 维 工作 中 ， 经 常会 接 到 来 自 运营 的 需求 : 给 目标 客户 发 送 一 批 推广 邮件 。 很 显然 ， 如 果 邮 件 的 数量 巨大 ， 那 么 使 用 Outlook 一 封 一 封 的 发 送 是 不 能 满足 效率 要 求 的。 解决 这 个 问题 的 方法 是 编写 
Perl 程 序 批量 发 送 。 在 编写 推广 邮件 的 程序 时 ， 有 以 下 的 优化 项 目 可 以 考虑 。 


“ 准备 多 个 不 同 的 邮件 标题 ， 尽 量 防止 被 对 方 邮件 服务 器 当 作 垃 圾 邮件 。 


“ 准备 多 个 不 同 的 邮件 内 容 ， 尽 量 防 止 被 对 方 邮件 服务 器 当 作 垃圾 邮件 。 


“ 构造 大 量 不 同 的 来 源 地 址 ， 尽 量 防止 被 对 方 邮件 服务 器 当 作 垃 圾 邮件 。 
“ 增加 邮件 打开 的 统计 分 析 ， 以 便 能 够 知道 推广 效果 。 


下 面 是 一 个 实际 的 推广 邮件 推送 的 程序 ， 在 代码 中 ,我们 对 以 上 的 几 个 优化 项 目 进行 讲解 : 


#!/usr/bin/perl 

use strict; 

use warnings; 

use IO::Socket; 

use POSIX; 

use MIME: :Base64; 

use Encode; 

use encoding 'utf8'; 
use POSIX qw(strftime); 
use Sys::Hostname; 

SI = 1; 

my @mail_contents = ( 'mail_content1', 'mail_content2', 'mail_content3' ); 


my Gmail subject ( 
"BHEDUR. RAR 运营 新 时 代 ! ', 
WARE! ', 


^f 27175 
"新 年 新 气象 ， 我 友 商 城 助 您 新 年 锦上添花 ! '， 
); 


open( MAIL LIST, '<', 'mail_list.txt' ) or die $!;# 目 标 邮件 地 址 
open( MAIL LOG, '>>', 'mail logs.txt' ) or die $!; 


while («MAIL LIST») { 
chomp; 


my ( $mail name, $mail domain ) = split( /8/, $ ); 
my $mail subject = $mail subjects[ int( rand( Sfmail subjects + 1) ) ]; # 在 邮件 标题 中 随机 选取 一 个 
my $mail content = $mail contents[ int( rand( $#mail contents + 1 ) ) ]; # 在 邮件 内 容 中 随机 选取 一 个 


my $tt time () ;# 获 取 当 前 时 间 
my $host id = hostname () ;# 获 取 当 前 主机 名 称 
$mail content = 
$mail content 
. "<img src-W'http://adl.woyo.com/s.gif?mc-2011021601" . '&' 
. "ts-$tt" . '&' 
. "host id-$host id" . '&' 
. "mail-$mail name" . '@' 


. "$mail domain" />";# 加 入 统计 代码 ， 统 计 发 送 的 时 间 、 发 送 的 主机 名 称 、 邮 件 地 址 


my $subject gb2312 base64 = encode base64( encode( "gb2312", $mail subject ) );#base64 编 码 邮件 主题 


$subject gb2312 base64 =~ s/Ns*//gi 


my $content gb2312 base64 = encode base64( encode( "gb2312", $mail content ) ) ;#base64 编 码 邮 件 内 容 


my $rand int = int( rand(100001) ) + 50000; 
my @ds = ( 'sina.com', 'yahoo.com.cn', 


my $dsl $ds[ int( rand( $#ds + 1 ) 


) 


'21cn.com', 


1; 


'tom.com', 'msn.com', 'live.cn', 'vip.sina.com', '188.com', 'yahoo.com', 'yahoo.cn' ); 


my $from = $rand int . '8' . $dsl; 
my $mail = $mail name . '@' . $mail domain;# 构 造 来 源 的 地 址 
my $cmd = 


"echo -e \"Reply-To: $from\nFrom: $from\nTo: $mail\nContent-Type: text/html;charset=gb2312\nContent-Transfer-Encoding:base64\nSubject: -?gb2312?B?$subject gb2312 base64?=\nCont 


bk 


system (Scmd) ;# 调 用 系统 命令 实际 发 送 邮件 


print MAIL LOG $mail, "\n";# 记 录 已 进入 邮件 队列 的 地 址 


sleep (10) ;#0 秒 后 发 送 下 一 封 邮件 ， 避 免 发 送 过 快 


} 
close (MAIL LOG); 
close (MAIL LIST); 


推广 邮件 的 效果 分 析 


在 推送 邮件 发 送 完成 后 ， 需 要 统计 分 析 邮 件 的 打开 情况 和 阅读 情况 。 在 此 ， 使 用 Perl 对 访问 日 志 进 行 分 析 。 分 析 代码 如 下 : 


#!/usr/bin/perl 

use strict; 

use warnings; 

use POSIX qw(strftime); 


my $log = "/usr/local/nginx/logs/adl.woyo.com.access.log"; 


my $mail count; 

my $mail t; 

open( LOG, '«', $log ) or die $!; 
while («LOG») ( 


4$180.171.85.14 - - [16/Feb/2011:13:25:57 40800] "GET /s.gif?mc-2011012900&ts- 1296310207&host id-PHP DEV 27&mail-etdzsw8126.com HTTP/1.1" 200 282 "http://g2al4.mail.126.com/js3 


chomp; 


my Gattributes = split( /"/, $ ) ?# 以 “分 割 日 志 ， 放 在 数组 Gattributes 中 


if ( Sattributes[1] =~ /ts=(\d+) (.*?)mail-([0-9a-zA-ZN.N- \@]+)/ ) ( 


my $t = $1; 


my $t s = strftime( "$Y $m $d %H:%M:%S", 


my $m = $3;# 取 出 邮件 地 十 
$mail t($m) = $t s; 


# 如 果 该 邮件 地 址 出 现 过 ， 则 计数 +1， 否则 初始 化 为 计数 0 


if ( exists( $mail count($m) ) ) ( 
$mail count{S$m}++; 

} 

else { 
$mail count($m) = 1; 

} 


} 

my $i = 0; 

ny $k = 0; " 

# 统 计 独立 邮件 地 址 的 个 数 和 所 有 邮件 地 址 打开 的 次 数 


localtime($t) ); 


foreach my $mail addr ( sort( keys $mail count ) ) { 


$i; 


print $mail count($mail addr], "Nt", $mail addr, "in"; 


$k += $mail count($mail addr]; 
} 


print H-A A bdo kdo ok od e koe eee eoe e eoe eee co An 
print "总 计 的 邮箱 个 数 为 \t\t"，$i, "An"; 
mL 
print "总 计 的 邮件 查看 次 数 为 \t\t"，S$k，"\n"; 
mL 
close (LOG); 


最 佳 实 践 91: 使 用 PerlTidy 美 化 代码 


在 Windows 上 编写 Perl 程 序 时 ， 希 望 能 够 让 Perl 代 码 显得 更 美观 一 些 ， 这 样 不 仅 看 起 来 更 加 清晰 规范 ， 而 且 易于 查找 出 其 中 的 拼写 错误 。 我 们 推荐 使 用 EditPlus 这 样 一 款 简 单 轻便 的 Perl 编 辑 器 ， 下 载 地 
址 是 https://www.editplus.com/。 通 过 在 EditPlus 中 集成 PerITidy， 可 以 美化 Perl 代 码 。 配 置 PerlTidy 的 步骤 如 下 。 


步骤 1 下 载 ActivePerl|。 以 Windows 764 位 系统 为 例 ， 需 要 下 载 对 应 的 64 位 Perl 安 装 程序 ， 下 载 地 址 是 http://www.activestate.com/activeperl/downloads/thank- 
you? dl=http://downloads.activestate.com/ActivePerl/releases/5.22.1.2201/ActivePerl-5.22.1.2201-MSWin32-x64-299574.msi. 


步骤 2 根据 提示 默认 安装 ActivePerl。 


步骤 3 为 Perl 添 加 PerlTidy 模 块 。 添 加 使 用 的 命令 是 : 


C:\Users\xufeng02>cd c:\Perl64\bin # 进 入 perl.exe 安 装 目录 
c:\Perl64\bin>perl.exe -MCPAN -e shell # 进 入 CPAN 安 装 模 式 


It looks like you don't have a C compiler and make utility installed. Trying 
to install dmake and the MinGW gcc compiler using the Perl Package Manager. 
This may take a a few minuteshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/ . . .# 提 示 安 装 dnake 和 MinGw 依 赖 项 


Downloading MinGW-4.6.3http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...done 

Downloading dmake-4.11.20080107http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/. ..done 
Unpacking MinGW-4.6.3http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...done 

Unpacking dmake-4.11.20080107http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...done 
Generating HTML for MinGW-4.6.3http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...done 
Generating HTML for dmake-4.11.20080107http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/. . .done 
Updating files in site areahttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...done 

3697 files installed E 


Please use the "dmake' program to run commands from a Makefile! 


cpan shell -- CPAN exploration and modules installation (v2.11) 
Enter 'h' for help. 


cpan» install Perl::Tidy# 安 装 PerlTidy 模 块 


步骤 4 在 EditPlus 中 ， 点 击 Tools->Configure User Tools， 出 现 图 18-2。 


如 图 18-2 所 示 ， 选 择 @OUser Tools， 在 @ 处 输入 PerlTidy， 在 @ 处 输入 以 下 内 容 : 


c:\Perl64\bin\perl.exe "C:\Perl64\site\bin\perltidy" 


在 @ 处 输入 以 下 内 容 : 


"$(FilePath)" -st 


在 @ 处 ， 选 择 Run as Text Filter (Replace) 选项 ， 然 后 点 击 OK 按钮 保存 。 


步骤 5 ”使 用 EditPlus 打 开 需 要 美化 的 Per 程序， 点 击 Tools->PerlTidy 即 可 ， 如 图 18-3 所 示 。 


Categories Groups and tool tems: 


General 
Fonts 


PerlTid 
Colors aeos 


Print 
File 
Settings & syntax 
Templates 
Tools 
User tools T) 


Keyboard Menu text: {2] PerlTidy 


B CHRON Command: (3) cA\PerlGAbinper.exe "Ci\PerlGd\site\bi m 
Toolbar 一 : 
Layout Argument: (4) "$&(HlePath)" -st [= 


Initial MES 


| Output Pattern... | 


Save: All open files 


J Cancel — 4m Apply ? Help 


图 18-2 ”PerlTidy 配 置 项 


File Edit View Search Document Project [Tools] Browser ZC Window Help | 
TES ud Aa Ss dm V (5| KE XIV Preferences... 


| Bg-—--4----1----:----2----1----3----1----4] Set Directories... 


s!/usr/bin/perl 
use strict; Spell Check 
use warnings; 

use utf8; Sort... 

use Net::LDAP; Sum... 

my $1dap = Net::LDAP-»new( 'shrd.woyo.com 


LU N b 


4 
5 


Text to Speech 


so 


Record 


Configure User Tools... 


User Tool Group 


PerlTidy 


图 18-3 ”PerlTidy 的 使 用 方法 


本 章 小 结 


了 Ped 是 一 种 高 级 编程 语言 ， 它 具有 学 习 成 本 低 、 应 用 场景 广泛 的 优点 ， 特 别 适合 在 各 种 运 维 场景 中 使 用 。 在 使 用 Petl 进 行 编程 的 过 程 中 ， 推 荐 读者 多 多 参考 http://www.cpan.org 这 个 网 站 提供 的 各 种 模块 ， 
这 样 可 以 搜索 到 适合 运 维 任务 需求 的 模块 ， 提 高 编程 的 效率 和 质量 。 本 章 讲解 了 使 用 Pen 进行 高 级 编程 的 技术 ， 包 括 多 进程 编程 、Socket 编 程 等 。 同 时 ， 对 于 几 个 典型 的 使 用 场景 ， 给 出 了 经 过 实践 验证 的 代 
码 以 供 读者 参考 。 在 本 章 最 后 ， 给 读者 推荐 了 PerlTidy 这 样 一 款 能 够 提高 在 Windows 环 境 中 编写 Ped 程 序 效率 的 工具 。 通 过 本 章 的 研读 ， 希 望 读 者 能 够 在 使 用 Penl 编 程 的 道路 上 更 进一步 ， 为 提高 运 维 技术 水 平 
增加 技术 储备 。 


第 19 章 ”精通 Ansible 实 现 运 维 自动 化 


如 何 提高 运 维 效率 ? 


第 18 章 介绍 了 通过 Pen 编程 来 提高 运 维 效率 ， 而 本 章 将 介绍 ， 如 何 使 用 自动 化 工具 Ansible 来 实现 服务 器 的 自动 化 部 署 和 管理 ， 同 样 达到 提高 运 维 效率 的 目的 。 本 章 和 第 18 章 中 提供 的 两 种 技术 实践 达到 互 
相 补 充 、 相 互 协作 的 效果 。 


针对 运 维 自动 化 的 话题 总 是 不 绝 于 耳 ，Ansible、Puppet、SaltStack、Chef 这 些 运 维 自动 化 的 工具 名 字 ， 也 早已 成 为 非常 热门 的 词汇 ， 从 功能 上 说 ， 它 们 几乎 大 同 小 异 ， 都 能 实现 成 百 上 千 的 服务 器 批量 管 
理 ， 但 是 各 自 的 侧重 点 各 有 不 同 ， 使 用 的 难 易 程度 当然 也 不 同 。 


目前 最 流行 的 当 属 Puppet， 它 的 功能 非常 强大 ， 但 是 它 相 比 其 他 几 个 ， 较 为 复杂 ， 使 用 Puppet+Foreman 可 以 搭建 带 Web 管 理 界面 的 自动 化 运 维 平台 。 关 于 Puppet 的 书 ， 目 前 也 是 最 多 的 ， 如 果 读者 朋友 感 
兴趣 ， 大 可 先 了 解 一 下 。 


Chef 同 Puppet 一 样 ， 也 是 由 Ruby 开 发 的 ， 虽 然 它 想 从 Puppet 中 学 习 它 的 优点 ， 但 实际 并 没有 什么 亮点 ， 且 配置 和 使 用 过 程 较为 烦琐 ， 所 以 在 生产 环境 中 Chef 的 用 户 并 不 多 。 


我 们 重点 来 比较 一 下 SaltStack 和 Ansible。 第 一 个 共同 点 ， 它 们 都 使 用 Python 开发 ， 其 次 两 者 目前 都 有 大 量 的 公司 在 用 ，Ansible 目 前 还 提供 企业 版 的 支持 服务 。 其 差别 在 于 ，SaltStack 支 持 有 客户 端 和 无 客 
户 端 两 种 模式 ，Ansible 目 前 并 没有 独立 的 客户 端 。 两 者 几乎 都 可 以 用 自己 的 方法 来 实现 对 方 所 能 实现 的 功能 。 笔 者 对 Ansible 和 SaltStack 谁 更 好 这 个 问题 ， 不 下 定论 。 究 竟 哪个 更 好 用 ， 读 者 朋友 在 自己 测试 体 
验 之 后 ， 自 有 答案 。 


Ansible 是 自动 化 运 维 领域 的 新 星 ， 正 逐渐 受到 越 来 越 多 的 关注 。 本 章 将 从 Ansible 的 原理 、 安 装 、 配 置 、Playbook (剧本 ) 、 模 块 开发 、 应 用 实例 等 方面 逐一 展开 介绍 。 


最 佳 实 践 92: 理解 Ansible 


具有 以 下 几 个 优点 。 


a 


Ansible 作 为 目前 非常 流行 运 维 自动 化 工具 之 一 ， 


:被 管理 节点 无 需 安装 客户 端 。 

: 安装 配置 简单 。 

“ 功能 模块 丰富 。 

“ 可 扩展 性 强 ， 可 自行 开发 功能 模块 。 

“ 使 用 简单 的 编排 语言 yaml 完 成 一 系列 复杂 的 任务 。 


在 运 维 的 日 常 工作 中 ， 有 很 多 烦琐 重复 的 内 容 ， 比 如 ， 程 序 部 署 、 文 件 更 新 、 代 码 发 布 、 日 志 分 析 等 ， 这 些 事情 会 占用 很 多 时 间 。 最 初 都 会 采用 一 些 脚 本 来 完成 这 些 事情 ， 但 是 后 来 发 现 脚本 越 来 越 


多 ， 维 护 这 些 脚本 也 成 为 一 个 头疼 的 问题 。 运 维 自动 化 工具 的 出 现 ， 大 大 提高 了 效率 ， 减 少 了 人 花费 在 这 些 重复 事情 上 的 时 间 。 


Ansible 可 以 说 是 其 中 的 佼佼 者 之 一 。 它 引入 了 一 种 思想 ， 将 一 系列 小 的 任务 ， 按 想 要 的 顺序 编排 在 一 起 ， 完 成 复杂 的 功能 。 


Playbook (编排 、 剧 本 ) 就 是 这 个 思想 的 具体 实现 。 标 准 化 后 的 任务 ， 编 写成 对 应 的 Playbook， 可 以 非常 方便 地 维护 和 反复 使 用 。 换 名 话说， 同一 件 事 ， 你 只 需 编写 一 个 Playbook。 执 行 一 下 ， 全 部 
搞定 ， 听 着 是 不 是 感觉 很 有 意思 ， 下 面 我 们 就 来 朝 着 这 个 方向 继续 。 


Ansible 安 装 及 原理 


如 何 安装 Ansible 


Ansible 提 供 多 种 安装 方式 ， 针 对 不 同 的 系统 ， 包 括 (Redhat、Ubuntu、Gentoo、FreeBSD、Mac OSX) 都 提供 了 安装 源 及 安装 包 。 这 些 软件 源 上 提供 的 版 本 都 是 近期 的 稳定 版 ， 所 以 并 非 最 新 版 ， 
通常 情况 下 Ansible 会 每 隔 两 个 月 分 布 一 个 版 本 ， 如 果 你 想 要 安装 最 新 的 Ansible 版 本 ， 可 以 使 用 git 下 载 源 代 码 并 编译 安装 。 


#git clone https://github.com/ansible/ansible.git 

fcd ansible;make rpm 

#cd rpm-build;ls *.rpm  ”// 编 译 完成 之 后 ， 生 成 一 个 安装 包 和 一 个 rpm 源 码 包 
ansible-2.1.0-0.9it201603022253.171c925.devel.el6.noarch.rpm 
ansible-2.1.0-0.9it201603022253.171c925.devel.el6.src.rpm 

# rpm -ivh ansible-2.1.0-0.9it201603022253.171c925.devel.el6.noarch.rpm 
< — 安装 ansible rpm 包 -- > 

#ansible --version|head -n 1 // 查 看 当前 ansible 版 本 为 2.1.0 

ansible 2.1.0 


注意 


编译 ansible tpm 过 程 中 需 安装 如 下 包 ，yum install-y asciidoc python-setuptools rpm-build python2-devel。 安 装 rpm 包 也 有 一 些 依赖 包 需 要 提前 安装 : yum install PyYAML python-crypto2.6、python-httplib2 
python-jinja2、python-keyczar python-paramiko bython-six sshpass。 某 些 包 在 epel 源 中 ， 需 先 安装 epel 的 源 tpm - ivh https://dl.fedoraproject.org/pub/epel/epel-release-latest-6.noarch.rtpm， 读 者 朋友 的 安装 环境 可 能 各 
有 不 同 ， 笔 者 的 编译 安装 环境 是 CentOS 6.5 最 小 化 安装 ， 具 体 依赖 也 会 在 实际 编译 及 安装 过 程 中 提示 ， 按 提示 即 可 。 


通过 yum 来 直接 安装 Ansible， 需 要 先 添 加 epel 的 yum 源 。 


#rpm -ivh https://dl.fedoraproject.org/pub/epel/epel-release-latest-6.noarch.rpm 
#yum install -y ansible 

fansible --version 

ansible 1.9.4 


安装 完成 之 后 会 得 到 以 下 几 个 程序 。 


- ansible: 执行 Ad-hoc (临时 ) 任务 ， 例 如 : 获取 系统 运行 时 间 。 


ansible 192.168.1.1 -a "uptime" 


-ansible-doc: 查看 模块 信息 及 用 法 ， 例 如 : 查看 copy 模 块 用 法 。 


ansible -s copy 


- ansible-galaxy: 方便 安装 官方 推荐 的 Ansible roles; 


Ansible roles 是 在 Ansible1.2 中 引入 的 特性 ，roles 采 用 层次 化 的 目录 ， 将 变量 、 文 件 、 模 块 、 触 发 器 放 在 不 同 的 目录 中 ， 使 结构 更 加 清晰 ， 每 个 roles 下 包括 多 个 实际 的 任务 。 在 ansible-playbook 中 可 
以 方便 地 引用 。 官 方 推荐 的 Ansible roles 在 https://galaxy.ansible.com/ 可 以 直接 查找 ,例如 : 安装 名 为 bennojoy.nginx 的 Ansible roles, 


ansible-galaxy install bennojoy.nginx 


- ansible-plapbook: 读 取 并 运行 Playbook 中 定义 的 任务 ， 例 如 : ansible-playbook site.yml。 
- ansible-pull: 切换 Ansible 模 式 ， 默 认 Ansible 采 用 push 模 式 。 


- ansible-vaul: 加 密 配 置 文件 。 


Ansible 原 理 与 架构 


Ansible 的 工作 原理 是 由 Ansible 核 心 模块 默认 通过 SSH 协 议 (同时 支持 Kerberos 和 LDAP 轻 量 目录 访问 协议 ) 将 任务 推送 到 被 管理 服务 器 执行 ， 待 执行 完成 之 后 自动 删除 任务 并 返回 执行 结果 。 


Ansible 的 组 成 架构 ， 如 图 19-1 所 示 。 


主要 包括 以 下 6 个 组 件 。 


- Ansiblezz 4, 


* Inventory 主 机 清单 。 


“ Modules 模 块 。 


Inventory 


Playbook 


Ansible 核 心 


Modules 


19-1 Ansible 组 成 架构 


* Playbook 剧 本 。 
* Pluginsd& ff o 
“ 连接 插件 。 


以 下 来 逐一 讲解 各 组 件 的 功能 和 原理 。 


Ansible 核 心 : Ansible 提 供 了 两 种 方式 来 执行 任务 。 第 一 ， 直 接 用 Ansible 命 令 ， 这 个 命令 是 Ansible 的 指令 核心 ， 它 用 来 执行 ad-hoc (笔者 理解 为 临时 的 ) 命令 ， 一 般 对 于 一 些 需要 马上 执行 且 简 单 的 
任务 可 以 使 用 ansible 命 令 来 完成 ， 例 如 : 


#ansible webserver -m command -a "uptime" 


命令 中 webserver 表 示 执 行 这 个 任务 的 主机 组 ，-m 之 后 是 命令 模块 ，-a 之 后 的 模块 中 的 参数 。 


第 二 ， 使 用 ansible-playbook 命 令 ， 这 个 命令 使 用 的 最 多 ， 后 面 直接 跟 一 个 写 好 的 Playbook 文 件 ， 在 Playbook 中 ， 可 以 定义 非常 复杂 的 任务 。 自 动 化 运 维 ， 大 部 分 是 靠 它 来 实现 的 ， 例 如 : 


ansible-playbook webserver.yml 


命令 中 webserverym| 是 一 个 定义 好 的 Playbook。 


Inventory 主 机 清单 : 也 就 是 定义 的 被 管理 主机 清单 ， 在 执行 Ansible 任 务 时 ， 必 须 指明 被 管理 的 主机 清单 。 默 认 在 /etc/ansible/hosts 文 件 中 定义 ， 也 可 以 使 用 -i/path/hosts 来 指定 主机 清单 文件 的 路 


Modules 模 块 : Ansible 的 模块 分 为 三 类 : 核心 模块 、 扩 展 模块 、 自 定义 模块 ， 在 本 章 后 面 章节 将 做 详细 的 介绍 。 


Playbook 剧 本 : Ansible 引 入 了 Playbook， 在 Playbook 中 可 以 将 一 个 复杂 的 任务 ， 非 常 清晰 地 表述 出 来 。Playbook 采 用 YAML (Yet Another Markup Language 另 一 种 标记 语言 ) 格式 编写 。 


Plugins 揪 件 : 插件 是 对 Ansible 功 能 的 补充 ， 比 如 日 志 、 邮 件 功 能 。 


连接 插件 : Ansible 默 认 使 用 SSH 协 议 连 接 被 管理 服务 器 ， 并 提供 4 种 连接 方式 支持 : OpenSSH, local (执行 本 地 任务 ) ，paramiko (Python 的 SSH 连 接 库 ) ，zeromq (一 个 基于 消息 队列 的 多 线程 
网 络 库 ) 。 在 Ansbile 1.3 之 后 默认 会 使 用 本 地 的 OpenSSH 连 接 被 管理 服务 器 ， 但 是 必须 被 管理 的 服务 器 的 OpenSSH 执 行 ControlPersist (一 个 用 于 提升 连接 性 能 的 参数 ) 特性 ， 该 特性 从 OpenSSH 5.6 之 
后 提供 支持 ， 默 认 RHEL 6.0, CentOS 6.0 中 提供 的 版 本 较 老 (OpenSSH 5.3) ， 并 不 支持 ControlPersist。 所 在 CentOS 6.0 系 统 中 Ansible 将 继续 使 用 Python 的 SSH 连 接 库 paramiko 来 提升 性 能 ， 这 也 是 
Ansible 1.3 之 前 默认 采用 的 连接 库 。 性 能 上 支持 ControlPersist 的 本 地 OpenSSH 是 paramiko 的 两 倍 左右 。 


此 外 ，Ansible 还 提供 了 一 种 特别 的 加 速 模 式 ， 为 不 支持 ControlPersist 特 性 的 OpenSSH 版 本 提供 优化 ， 在 定义 的 Playbook 中 通过 accelerate: true 来 开启 该 功能 ， 该 功能 需要 被 管理 服务 器 中 安装 
python-keyczar 包 。 


Ansible 配 置 项 说 明 


Ansible 的 配置 文件 的 默认 路 径 为 /etc/ansible/ansible.cfg， 配 置 文件 格式 ， 是 通过 分 块 来 定义 各 项 参数 ， 以 [分 块 名 称 ] 表 示 ， 一 共 包含 以 下 几 块 。 


- defaults: 定义 一 些 通用 的 配置 参数 ， 比 如 下 面 所 列 ， 就 是 常用 的 。 


inventory = /etc/ansible/hosts  // 定 义 主机 清单 路 径 " 
forks -5 // 定 义 任务 的 并 发 数 ， 默 认 是 5 个 ， 执 行 时 通过 -上 指定 
sudo_user = root // 定 义 默认 的 sudo 用 户 ， 默 认为 root 


gathering = implicit 
<--! 人 允许 获取 facts 的 值 ， 如 果 定 义 为 explicit, 将 无 法 获取 setup 模 块 所 能 获取 到 的 变量 值 ! --> 
host key checking = False // 关 闭 第 一 次 连接 系统 是 检查 keys 的 提示 
action Plugins /usr/share/ansible plugins/action plugins 

callback plugins /usr/share/ansible plugins/callback plugins 

connection plugins - /usr/share/ansible plugins/connection plugins 

lookup plugins /usr/share/ansible plugins/lookup plugins 

vars plugins /usr/share/ansible plugins/vars plugins 

filter plugins /usr/share/ansible plugins/filter plugins 

<--! 定 又 各 类 插件 的 路 径 !--> 

fact_caching = memory // 定 义 fact 的 缓存 方式 ， 可 以 选 memory 和 radis 


“ privilege escalation: 定义 一 些 提升 权限 的 参数 ， 一 般 保持 默认 即 可 。 


“ paramiko connection: 定义 Python 的 paramiko 模 块 相 关 的 配置 优化 参数 ， 一 般 默 认 即 可 。 


"ssh connection: 定义 SSH 配 置 参 数 。 


Pipelining = False // 默 认为 false， 定 义 为 True 时 ，ansible 通 过 管道 的 方式 ， 减 少 在 远程 被 管理 机 器 上 执行 任务 模块 过 程 的 SSH 连 接 数 量 ， 来 提高 性 能 ， 注 意 ， 如 果 需 要 使 用 sudo 切 换 用 户 的 话 ， 需 要 在 被 管理 服务 呈 


“ accelerate: 上 一 节 介绍 连接 插件 的 时 候 ， 介 绍 Ansible 对 于 OpenSSH 不 支持 ControlPersist 参 数 的 情况 下 ， 提 供 了 accelerate 模 式 ， 在 这 个 配置 块 中 ， 定 义 具体 的 端口 、 超 时 时 间 等 参数 ， 一 般 默 认 即 可 。 


“ selinux: 定义 文件 系统 的 安全 上 下 文 设置 ， 正 常情 况 下 操作 将 复制 现 有 的 安全 上 下 文 或 者 使 用 用 户 默认 ， 对 于 某 些 文件 系统 ， 需 要 文件 依照 该 文件 系统 中 的 上 下 文 权限 来 继承 ， 默 认 的 例外 的 文件 系 


统 是 nfs ，vboxsf，fuse，tamfs ， 一 般 保 持 默 认 配 置 即 可 。 


Inventory 定 义 格式 


在 使 用 Ansible 命 令 执 行 操作 时 ， 可 以 使 用 -i 参数 指定 inventory (主机 清单 ) 文件 的 路 径 ， 默 认 在 ansible.cfg 中 定义 的 inventory 路 径 为 /etc/ansible/hosts。 


在 inventory 中 定义 主机 时 ， 自 由 度 非 常 高 ，Ansible 可 以 支持 主机 名 、IP、 主 机 分 组 、 简 单 的 正则 、 变 量 参数 、 主 机 分 组 之 间 的 包含 关系 等 。 下 面 通过 一 个 inventory 文 件 来 详细 说 明 。 


dns.sh[a:b] .example.com 
<-! 支持 字母 匹配 ， 得 到 两 台 主机 dns. sha.example.com, dns.shb.example.com !-» 


test01] 

192.168.2.103 ansible connection=ssh ansible ssh user=root 
ansible_ssh_pass=P@ssw0rd// 为 特定 的 参数 赋值 ， 此 处 定义 了 连接 类 型 ，ssh 用 户 名 和 密码 。 
192.168.2.104 vsftpd port-2121 // 自 定义 变量 ， 在 playbook 中 可 以 引用 。 


test02] 

192.168.2.105 

192.168.2.106 

test02:vars] // 为 一 组 主机 定义 相同 的 变量 参数 
ansible connection-ssh 

ansible ssh user-root 
ansible ssh pass-PésswOrd 


testserver:children] // 定 义 主机 组 testserver 其 中 包含 test01，test02 两 个 分 组 
test01 
test02 


dbservers] // 定 义 一 个 主机 组 ， 执 行 任务 时 可 以 指定 某 个 主机 组 。 

db.example.com // 定 义 被 管理 主机 名 称 ， 注 意 该 主机 名 需要 能 被 dns 解析 为 ITP 地 址 。 

192.168.1.100 // 定 义 被 管理 服务 器 的 ITP 地 址 。 

gameservers] 

gs[1:5] // 使 用 通配符 匹配 主机 ， 将 包括 gs1, gs2http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15829/OEBPS/Text/...gs5。5 台 主 
192.168.2.[101:115] // 定 义 主机 IP 地 址 时 ， 也 可 以 使 用 数字 通配符 。 

dnsservers] 


Qus 
所 有 的 主机 都 包含 在 记分 组 中 ， 所 以 请 慎 用 ansible al-m modules 执 行 任务 。 


最 后 说 明 一 下 ，inventory 定 义 中 有 常用 的 自 带 变量 。 


E 机 的 ssh 端 口 
接 到 该 主机 的 ssh 用 户 
接 到 该 主机 的 ssh 密 码 


ansible ssh port: / [5€ X 
ansible ssh user: // 定 


ansible ssh pass: // 定 
ansible sudo pass: // 定 义 sudo 的 密码 
ansible connection: // 定 义 ansibles 的 连接 类 型 ， 可 以 是 local、ssh 或 paramiko 


ansible ssh private key file: // 定 义 私 钥 文件 路 径 


最 佳 实践 93: 学 习 Ansible Playbook 使 用 要 点 


使 用 Ansible 来 执行 操作 有 两 种 方式 ， 第 一 ， 直 接 使 用 ansible 来 执行 Ad-hoc (拉丁 文中 的 含义 是 “临时 的 ”) 命令 ， 通 常 对 于 一 些 需要 立即 执行 ， 但 又 不 具有 通用 性 的 任务 使 用 ansible 命 令 直 接 执 和 


非常 方便 的 。 第 二 ， 通 过 ansible-playbook 命 令 来 执行 定义 好 的 Playbook， 这 里 的 Playpook 笔 者 理解 为 “编排 ”， 也 就 是 将 完成 一 个 的 任务 的 多 个 操作 步骤 ， 集 中 地 写 在 这 个 称谓 Playbook 的 文件 里 


类 似 于 编 一 部 剧 ， 用 一 个 Playbook 把 所 有 的 剧情 串 在 一 起 。 


在 实际 环境 中 Ansible Playbook 是 应 用 最 多 的 ， 下 面 就 来 更 深入 地 了 解 一 下 Playbook。 


Playbook 基 本 语法 和 格式 


Playbook 可 以 说 是 Ansible 一 个 非常 大 的 亮点 ， 它 提供 了 非常 强大 的 功能 ， 远 不 止 把 多 个 ansible Ad-hoc 命 令 写 放 到 一 个 文件 中 来 执行 那么 简单 。 在 Playbook 中 不 仅 可 以 定义 任务 的 执行 顺序 ， 还 能 定 


义 不 同 的 变量 ， 定 义 任务 之 间 的 关联 关系 ， 定 义 基 于 环境 和 角色 的 差异 化 配置 推送 等 ， 具 有 很 多 非常 灵活 的 特性 。 


可 以 说 Playbook 的 可 定制 性 是 非常 强大 的 ， 尽 管 如 此 ，Playbook 在 设计 之 初 也 考虑 了 易 用 性 ， 所 以 对 于 新 手 来 说， 初次 接触 Playbook 都 会 感觉 它 的 语法 比较 简单 ， 很 容易 读 情 
学 习 成 本 ， 相 比 Puppet， 这 点 上 Ansible 是 非常 占 优势 的 。 


Playbook 的 编写 使 用 YAML 语 言 格式 ， 它 的 标准 格式 是 以 “---” 开 始 “…” 结 束 ， 例 如 : 


， 这 就 在 无 形 中 降低 了 


--- //YAML 语 言 开 始 于 *---” 
# An employee record // 使 用 *#” 来 添加 注释 
name: Martin D'vloper // 对 于 字典 或 者 hash 类 型 的 key/values 对 ， 采 用 \:”“ 分 割 
job: Developer 
skill: Elite 
employed: True 
foods: 
- Apple // 序 列 里 的 项 用 \-“ 分 割 
- Orange 
languages: 
perl: Elite // 对 于 字典 类 型 的 键 值 采用 *: ”分割 
education: | 
<--! 对 于 key: value 这 种 格式 如 果 value 需 要 多 行 可 以 使 用 *1” 或 者 *>”!--> 
4 GCSEs 


3 A-Levels 
BSc in the Internet of Thingshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/0EBPS/Text/... 


http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... //YAML 语 法 最 后 结束 于 “http://www.hzcourse.com/re 


介绍 了 YAML 的 语法 之 后 ， 下 面 就 开始 介绍 Playbook 具 体 如 何 编写 。 


[EH] 


Ansible Playbook 文 件 结构 上 可 以 分 为 三 部 分 。 


第 一 部 分 为 Basic (基础 ) ， 作 为 一 个 Playbook 的 开始 ， 必 须 包 含 一 些 关键 字段 。 


//hosts 必 须 指定 ， 月 


于 定义 playbook 的 操作 对 象 
//vars 定 义 变量 的 值 ， 


变量 可 以 在 多 个 地 方 定义 ，vars 是 可 选 字 


- hosts: webservers 
vars: 

ftp_port: 8081 
remote_user: root 


在 Ansible 1.4 中 加 入 了 remote_user 这 个 参数 ， 
也 可 以 定义 在 具体 的 任务 中 ， 例 如 : 


于 指定 执行 这 个 Playbook 任 务 所 使 


- hosts: webservers 
tasks: 
- name: test connection 
ping: 
remote user: yourname 


他 用 户 ， 或 者 切换 之 后 再 sudo 到 root 


为 了 配合 remote_user 参 数 ， 在 完成 用 户 切 换 之 后 ， 如 果 还 需要 再 次 切换 到 
sudo， 通 过 sudo 来 切换 ，become_user: otheruser， 切 换 到 otheruser。 


第 二 部 分 是 Ansible Playbook 的 核心 内 容 ，Task (任务 ) ， 定 义 具 体 做 哪些 事 ， 以 及 如 何 做 。 


户 ， 在 默认 的 Ansible 配 置 文件 中 定义 的 执行 


户 ，Ansible 还 提供 了 become: yes 运 行 再 次 切换 | 


户 是 root。remote_user 参 数 可 以 定义 在 Playbook 的 全 局 ， 


F^, become method: 


tasks: 

- name: make sure apache is running 
service: name-httpd state-running 

- name: disable selinux 
command: /sbin/setenforce 0 

- name: create a virtual host file for {{ vhost }} 
template: src-somefile.j2 dest-/etc/httpd/conf.d/(( vhost }} 
notify: 


- restart apache 


在 tasks 关 键 字 中 ， 定 义 多 个 具体 的 任务 ， 每 个 任务 用 -name 来 定义 任务 的 名 字 ， 通 常 这 个 名 字 用 来 说 明 


体 的 操作 。 执 行 任务 ， 则 有 


体 的 模块 来 实现 ， 以 上 使 


了 service，command，template 


模块 。 使 用 ansible-doc-| 可 以 列 出 当前 可 以 使 用 的 所 有 模块 ， 目 前 Ansible 支 持 的 模块 已 经 有 400 多 个 了 。 


[root@localhost ~]# ansible-doc -1 

less 436 

Copyright (C) 1984-2009 Mark Nudelman 

less comes with NO WARRANTY, to the extent permitted by law. 

For information about the terms of redistribution, 

see the file named README in the less distribution. 

Homepage: http://www.greenwoodsoftware.com/less 

al0 server Manage A10 Networks AX/SoftAX/Thunder/vThunder devices 

al0 service grou Manage A10 Networks AX/SoftAX/Thunder/vThunder devices 

http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 


如 果 需 要 知道 某 个 模块 的 具体 用 法 ， 可 以 使 用 ansible-doc-s module_name。 可 以 输出 非常 详细 的 使 用 说 明 。 
三 部 分 是 Handlers (管理 ,调用 ) ， 这 个 关键 字 下 面 定 义 了 一 些 具体 的 操作 ， 用 于 被 Task 中 某 个 具体 任务 执行 完成 后 调用 。 如 下 定义 了 一 个 本 


handlers: 
- name: restart apache 
service: name-apache state-restarted 


看 启 apache 的 操作 。 


在 第 二 部 分 Tasks 的 举例 中 ， 有 一 个 notify， 表 示 当 template 执 行 完 之 后 ， 需 要 调 


restart apache 操 作 ， 这 个 操作 就 是 在 handlers 中 定义 好 的 。 


tasks: 
- name: create a virtual host file for {{ vhost }} 

template: src-somefile.j2 dest-/etc/httpd/conf.d/(( vhost }} 
notify: 

- restart apache 


使 用 Include、Roles 组 织 Playbook 


使 用 Playbook， 我 们 已 经 可 以 有 序 地 组 织 一 些 较 为 复杂 的 自动 化 任务 了 ， 但 Playbook 还 存在 两 个 缺点 。 
第 一 ， 灵 活性 不 够 ， 当 我 们 写 了 一 个 很 复杂 的 Playbook 来 完 一 个 任务 ， 再 写 第 二 个 Playbook 的 时 候 ， 发 现 很 多 都 必须 重新 来 过 ， 其 实 对 于 做 运 维 的 读者 朋友 来 说 ， 一 定 清楚 ， 对 于 一 批 服务 器 ， 初 始 


变 得 一 点 都 不 灵活 。 


化 过 程 是 大 同 小 异 的 ， 其 中 很 多 操作 适用 于 所 有 的 服务 器 ， 那 么 单个 Playbook 的 方式 就 


第 二 ,结构 层次 混乱 ， 对 于 完成 一 个 简单 的 自动 化 任务 来 说 ， 并 不 存在 这 个 问题 ， 因 为 任务 的 步骤 比较 简 和 
者 朋友 可 以 想象 ， 结 果 会 如 何 ， 答 案 一 定 是 非常 混乱 。 之 后 如 果 再 需要 调整 的 话 就 变 得 很 麻烦 了 。 


其 实 ， 这 两 个 问题 ， 都 来 自 于 一 点 ，Playbook 是 一 个 文件 ， 那 如 果 可 以 将 一 个 复杂 的 Playbook 拆 分 为 多 个 简 征 
来 ， 使 其 能 清晰 地 展现 整个 自动 化 任务 的 结构 。Ansible 的 设计 者 也 考虑 到 了 这 个 问题 ， 所 以 先后 引入 了 include 和 roles 来 解决 这 些 问题 。 


词 在 很 多 程序 语言 中 都 是 关键 字 ， 一 般 的 作用 也 是 引入 函数 库 ， 或 者 引入 文件 。 在 Ansible Playbook 中 使 
能 变 得 更 加 强大 ， 下 面 通过 一 个 例子 来 说 明 。 


先 来 介绍 include， 这 个 血 
在 Ansible 1.0 之 后 ，include 已 经 支持 带 参数 的 引入 ， 使 功 


， 但 是 对 于 一 个 需要 上 百 个 task 才 


能 完成 的 自动 化 任务 来 说 ， 全 部 写 在 一 个 Playbook 中 ， 读 


的 Playbook 是 不 是 就 没 问题 了 呢 ? 拆 分 只 是 基础 ， 还 需要 结构 化 将 这 些 Playbook 组 织 起 


include 可 以 引入 其 他 的 Playbook 中 定义 的 包括 task 或 handlers， 


[AnsibleClientIn] 
192.168.122.129 
192.168.122.128 
192.168.122.127 
[AnsibleClientIn:vars] 
ansible ssh user-root 
ansible ssh pass-PésswOrd 


笔者 尽力 描述 每 一 个 环节 。 首 先 在 /etc/ansible/hosts 文 件 中 定义 AnsibleClientIn 的 分 组 ， 并 指定 登录 


为 了 大 家 可 以 更 好 地 重 玉 


户 名 和 密码 。 


- name: Copy specific files 
copy: src-((filename]) dest-/var/ftp/pub/ group-ftp owner-ftp 


定义 一 个 task 文 件 copyfile.yml， 用 于 执行 拷贝 文件 到 指定 位 置 ， 其 中 包括 变量 {ffilenamej}。 


- hosts: AnsibleClientIn 
tasks: 
- include: copyfile.yml filename-1l.txt 
- include: copyfile.yml filename-2.txt 


定义 一 个 Ansible Playbook， 名 为 main.yml， 在 其 定义 的 tasks 中 使 用 了 include 引 入 copyfile.yml 这 个 Playbook， 并 传递 一 个 变量 filename，include 了 两 次 ， 分 别传 递 了 1.txt，2.txt， 重 复 地 include 
同一 个 Playbook， 传 递 不 同 的 参数 ， 得 到 的 效果 是 将 1.txt 和 2.txt 都 copy 到 了 目的 主机 上 。 看 main.ymI 可 以 发 现 结构 非常 清楚 ， 当 然 这 只 是 一 个 简单 的 例子 ， 用 来 说 明 在 tasks 中 带 变量 的 include 如 何 使 
。Include 在 handlers 中 的 应 用 也 很 简单 ， 还 是 通过 一 个 例子 来 说 明 比 较 直观 。 


/etc/ansible/hosts 保 持 不 变 ， 然 后 编写 一 个 handlers 的 Playbook， 命 名 为 handlers.yml， 内 容 如 下 。 


- name: restart vsftpd 
service: name-vsftpd state-restarted 


再 定义 个 main.yml 在 它 的 handlers 中 使 用 include 引 入 之 前 定义 的 handlers.yml。 


- hosts: AnsibleClientIn 

tasks: 

- name: config ftp server 

template: src-vsftpd.confdest-/etc/vsftpd/vsftpd.conf 
notify: 

- restart vsftpd 
handlers: 

- include: handlers.ym 


这 个 main.ymI 的 功能 是 当 vsftpd.conf 发 生变 化 的 话 ， 触 发 重启 vsftpd 的 服务 。 其 中 handlers 里 面 使 用 了 include 直 接 引入 外 部 定义 的 Playbook， 当 模板 文件 被 更 新 时 触发 重启 vsftpd 服 务 。 


举例 的 这 个 应 用 是 非常 简单 的 ， 在 实际 的 应 用 过 程 中 ， 可 以 在 handlers 的 Playbook 中 定义 很 多 需要 触发 操作 的 handlers， 而 不 需要 每 次 都 在 main.yml 中 定义 。 


以 上 介绍 了 在 Playbook 中 使 用 include 来 引用 单独 的 Playbook 文 件 ， 那 是 否 有 一 种 方式 可 以 既 实 现 调用 ， 又 不 需要 include 特 别 指定 呢 ? 答案 当然 是 有 的 ， 在 Ansible 1.2 之 后 ， 引 入 了 一 个 比 include 还 
要 强大 的 组 织 Playbook 的 方式 ，roles 可 以 解释 为 角色 。 为 什么 叫 roles 呢 ?笔者 理解 为 ，Ansible 希 望 将 一 个 服务 器 以 不 同 的 角色 来 区 分 ， 并 定义 这 个 角色 所 需要 做 的 全 部 任务 。 


Roles 是 通过 规范 目录 结构 ， 自 动 include 对 应 目录 下 的 任务 ， 格 式 上 不 再 需要 通过 include 来 明确 定义 引入 哪个 Playbook。 以 下 通过 一 个 roles 目 录 结 构 实例 来 说 明 。 
[site.yml //roles 的 主 文件 ， 可 以 为 空 ， 但 一 定 要 有 。 
webserver. yml // 一 个 具体 角色 的 yml 文件 ， 条 全 实现 差异 化 定制 。 
— roles 
nginx // 定 义 具 体 角色 ， 比 如 nginx。 
[— defaults 
c--!ansible 1.3 之 后 支持 ， 用 于 定义 默认 的 参数 或 变量 ， 变 量 优先 级 最 低 !--> 
in.yml //roles 会 查找 各 目录 下 的 main.yml 文 件 进行 引入 。 
[— files //task 中 涉及 文件 推送 的 内 容 ， 部 在 files 目 录 
[一 epel.repo 
[— handlers //handlers 中 定义 的 内 容 都 在 此 目录 下 
[— meta 
<--! ansible 1.3 之 后 支持 role dependencies， 可 以 引用 roles 中 的 其 他 角色 !--> 
|— README .md // 说 明 性 文件 
| 一 tasks // 定 于 具体 的 任务 
in.yml 
| 一 templates // 使 用 的 模板 文件 统一 在 这 个 目录 下 
nginx.conf.j2 
-一 vars // 变 量 文件 ， 都 存储 在 这 个 目录 


从 roles 的 目录 结构 中 可 以 看 到 ， 基 本 上 是 按 Playbook 中 各 关键 字 来 组 织 的 ， 比 如 ，tasks，vars，handlers， 此 外 还 将 文件 单独 放 在 files 中 ， 模 板 单独 放 在 templates 中 ，defaults 和 meta 分 别 用 于 默 
认 参 数 和 角色 依赖 的 一 些 定 义 。 Roles 会 在 除了 files 和 templates 目 录 中 查找 并 引入 main.yml， 相 应 地 任务 可 以 直接 定义 在 main.yml 中 。 


从 目前 来 看 ，roles 是 Ansible 中 非常 大 的 一 个 亮点 ， 官 方 希望 将 roles 定 位 为 Ansible 的 一 个 个 最 佳 实践 ， 方 便 用 户 之 间 相 互 共享 ， 读 者 朋友 可 以 在 以 下 官网 查找 合适 的 
roles, https://galaxy.ansible.com/, Ansbile 1.4.2 之 后 可 以 通过 ansible-galaxy 命 令 来 管理 roles。 


[rootélocalhost]£ ansible-galaxy installbennojoy.mysql 

downloading role 'mysql', owned by bennojoy 

downloading role from https: //github.com/bennojoy/mysql/archive/master.tar.gz 
extracting bennojoy.mysql to /etc/ansible/roles/bennojoy.mysql 
bennojoy.mysql was installed successfully 


ansible-galaxy 下 载 的 roles， 默 认 存放 在 /etc/ansible/roles/ 目 录 下 。 读 者 朋友 可 以 下 载 之 后 ， 查 看 并 根据 自己 的 实际 环境 修改 之 后 再 使 用 ， 这 个 比 完全 自己 写 要 省 事 很 多 。 同 时 读者 朋友 也 可 以 将 
自己 写 好 的 roles 通 过 github 共 享 给 其 他 人 。 


Ansible 多 样 的 变量 定义 与 使 用 法 则 


变量 的 使 用 ， 使 自动 化 任务 的 定义 变 得 更 加 灵活 、 多 样 。 在 Ansible 中 也 支持 多 种 形式 的 变量 定义 ， 以 下 就 来 逐一 介绍 。 


1. 在 inventory 中 定义 变量 


在 inventory (主机 清单 ) 定义 的 同时 ， 不 仅 可 以 为 特定 的 变量 赋值 ， 比 如 ，ansible_ssh_port，ansible_ssh_user，ansible_ssh_pass， 同 时 也 可 以 自 定义 一 些 变量 ， 比 如 一 组 服务 器 我 们 希望 定义 
nginx 监 听 8081， 那 么 可 以 直接 定义 nginx_port=8081， 之 后 在 配置 文件 模板 中 直接 引用 {tnginx_port}j 即 可 。 


2. 在 Ansible 的 hosts 和 groups 中 定义 变量 


在 Ansible 特 定 的 目录 中 可 以 对 hosts 和 groups 定 义 变量 ，/etc/ansible/group_vars/ 目 录 中 定义 groups 的 变量 ， 变 量 文件 是 .yml 文 件 ， 注 意 定 义 时 文件 名 必须 和 group 的 名 字 相同 ， 同 样 
在 /etc/ansible/host_ vars/ 目 录 中 可 以 定义 host 的 变量 ， 文 件 名 和 host 名 也 必须 一 致 ， 内 容 遵循 yml 格 式 。 下 面 通过 一 个 具体 的 例子 进行 说 明 。 


[root@localhost]# cat /etc/ansible/group vars/AnsibleClientIn.yml 


idc: Shanghai 


创建 一 个 以 组 名 AnsibleClientln 命 名 的 yml 文 件 ， 其 中 定义 一 个 变量 idc 并 赋值 shanghai。 


[root@localhost]# cat /etc/ansible/host vars/192.168.122.129.yml 


idc: Beijing 


创建 一 个 以 主机 名 192.168.122.129 命 令 的 yml 文 件 ， 其 中 也 定义 了 变量 idc 并 赋值 Beijing。 


- hosts: AnsibleClientIn 
tasks: 
- name: Copy file 
copy: srceserver.txt dest=/root/{{idc}} 


定义 一 个 Playbook， 在 其 中 可 以 直接 使 用 变量 idc， 如 上 例子 会 将 当前 目录 下 的 servertxt 复 制 到 AnsibleClientin 中 定义 的 所 有 主机 中 ， 复 制 到 192.168.122.129 主 机 中 的 文件 名 为 Beijing， 其 余 主 机 中 
得 到 的 文件 名 是 Shanghai， 读 者 朋友 们 是 不 是 发 现 ， 对 于 相同 的 变量 ， 如 果 在 host_vars 和 group_vars 都 被 定义 的 时 候 ，host_vars 中 定义 的 优先 级 要 高 。 待 所 有 变量 定义 方式 都 介绍 完成 之 后 ， 再 为 读者 朋 
友 总 结 一 下 ， 变 量 的 定义 优先 级 。 


3. 在 Playbook 中 直接 定义 和 使 用 变量 


Playbook 的 vars 关 键 字 下 ， 定 义 变量 filesname 为 config.txt， 这 个 定义 的 变量 可 以 在 tasks 中 被 使 用 ， 如 下 例子 中 ， 使 用 了 copy 模 块 ， 目 的 文件 名 直接 使 用 变量 定义 好 的 filename。 


- hosts: AnsibleClientIn 
vars: 
- filename: config.txt 
tasks: 
- name: Copy file 
copy: src-server.txt dest-/root/((filename]] 


4. 在 独立 的 文件 中 定义 变量 


Playbook 中 ， 提 供 了 一 个 vars_files 关 键 字 ， 用 于 引 


一 个 独立 文件 中 的 变量 。 也 是 通过 一 个 简单 的 例子 来 具体 说 明 一 下 。 


[root@localhost]# cat /root/ansible-playbook/ansible variables.yml 


server roles: Webserver 


创建 一 个 单独 的 用 于 定义 变量 的 文件 ， 命 名 为 ansible_variables.yml， 其 中 定义 了 一 个 变量 server_roles， 并 赋值 。 


- hosts: AnsibleClientIn 
vars files: 
- /root/ansible-playbook/ansible variables.yml 
tasks: 
- name: Copy file 
copy: src-server.txtdest-/root/[((server roles}} 


在 Playbook 中 ，vars files 关 键 字 下 ， 引 入 单独 定义 的 变量 文件 。 上 面 的 例子 执行 之 后 ，Ansible 会 将 servertxt 文 件 复制 到 目的 主机 中 ， 命 名 为 Webserver。 


5. 在 使 用 ansible-playbook 执 行 Playbook 时 引入 


这 种 方式 分 为 两 种 情况 ， 第 一 种 通过 vars_prompt 交 互 方式 。 另 一 种 是 extra-vars 传 递 变量 。 以 下 还 是 通过 两 个 简单 的 例子 来 说 明 一 下 。 


通过 vars_prompt 交 互 方式 获取 变量 举例 。 


- hosts: AnsibleClientIn 
vars prompt: 
- name: 'filename' 


prompt: 'Input filename' // 用 户 输入 时 的 提示 信息 i 
private: no // 是 否 显 示 用 户 输入 的 内 容 ，yes， 为 不 显示 ，no 为 显示 
tasks: 


- name: linefile input 
Copy: srceserver.txt dest-/root/((filename]] 


定义 一 个 Paybook 命 名 为 EX5.yml， 其 中 使 用 了 vars_prompt， 用 于 接收 用 户 的 输入 ， 并 存放 于 filename 这 个 变量 中 。 


[root@localhost ]# ansible-playbook EX5.yml 
Input filename: testfile 


执行 playbook， 会 提示 Input filename， 此 时 提示 输入 文件 名 ， 因 为 指定 了 private: no， 所 以 用 户 输入 会 被 显示 出 来 。 


通过 extra-vars 方 式 传递 变量 举例 。 


- hosts: AnsibleClientIn 
tasks: 
- name: filename input 
Copy: src-server.txt dest-/root/((filename]] 


定义 Playbook 命 名 为 EX5-2.yml， 在 其 中 直接 引用 filename 变 : 


[root@localhost ]# ansible-playbook EX5-2.yml --extra-vars "filename-extra-test" 


使 用 ansible-playbook 执 行 EX5-2.yml 时 ， 通 过 --extra-vars 来 为 变量 filename 赋 值 。 


6. 使 用 ansible setup 模 块 中 获取 到 的 变量 


Ansible 默 认 配 置 中 setup 模 式 是 开启 的 ， 在 /etc/ansible/ansible.cfg 中 设置 gather_ facts: no 来 关闭 它 。Setup 模 块 非常 强大 ， 可 以 获取 到 非常 多 的 系统 环境 及 配置 信息 。 


举 个 简单 的 例子 ， 使 用 setup 模 块 中 的 获取 到 的 变量 。 


- hosts: AnsibleClientIn 
tasks: 
- name: ansible facts test 
template: src-setup-test.txt dest-/tmp 


定义 一 个 playbook， 其 中 使 用 template 模 块 传递 一 个 文件 到 目的 服务 器 ， 模 板 文件 setup-test.txt 中 定义 个 一 个 变量 ansible all_ipv4_addresses 获 取 ipv4 地 址 。 


[rootQAnsibleServer ansible-playbook]# cat setup-test.txt 
[(ansible all ipv4 addresses]] 


这 个 变量 在 setup 模 块 中 是 有 的 ， 执 行 ansible localhost-m setup 可 以 看 到 setup 模 块 获取 到 的 所 有 变量 内 容 。 


以 上 介绍 的 6 种 变量 定义 和 使 用 方法 是 最 常用 的 ， 当 然 Ansible 支 持 的 远 不 止 这 些 ， 读 者 朋友 可 以 在 官方 网 站 查看 http://docs.ansible.comyansible/playbooks variables.html。 


上 面 章节 中 也 提 到 了 ， 如 果 一 个 变量 被 多 次 定义 ，Ansible 会 根据 变量 的 优先 级 来 对 变量 最 后 赋值 ， 具 体 的 变量 优先 级 由 低 到 高 按 如 下 排序 。 


=- 


ole defaults (role 中 default 目 录 中 定义 的 变量 ) «inventory vars (主机 清单 中 定义 的 变量 ) «inventory group vars (在 文件 中 定义 的 组 变量 ) «inventory host vars (在 文件 中 定义 的 主机 变 


Æ) «playbook group vars (在 Playbook 中 定义 的 组 变量 ) <playbook host vars (在 playbook 中 定义 的 主机 变量 ) «host factsregistered vars«set facts«play vars«play vars_prompt (获取 上 


户 的 


输入 变量 ) <play vars files<role and include vars (在 role 和 include 中 定义 的 变量 ) <block vars (only for tasks in block) <task vars (only for the task) <extra vars (always win precedence) 


最 佳 实践 94: Ansible 模 块 介绍 及 开发 


模块 在 Ansible 中 用 于 执行 具体 的 任务 ， 并 返回 执行 结果 ， 在 Ad-hoc 和 Playbook 中 都 可 以 直接 使 用 模块 来 完成 具体 的 任务 。Ansible 模 块 主要 分 为 以 下 三 大 类 。 


第 一 类 是 核心 模块 ， 这 类 模块 由 Ansible 团 队 来 维护 ， 


优先 级 和 重要 性 是 最 高 的 。 


第 二 类 称 为 扩展 模块 ， 这 类 模块 的 维护 由 社区 负责 ， 通 常 在 拓展 模块 中 优秀 模块 才能 进入 核心 模块 ， 可 以 理解 为 拓展 模块 是 核心 模块 的 备 选 模块 。 


第 三 类 是 自 定义 模块 ， 这 部 分 通常 由 使 用 者 根据 自己 的 应 用 场景 开发 的 ， 这 类 模块 通常 具有 很 大 的 局 限 性 ， 但 如 果 开 发 的 好 ， 它 也 是 可 以 进入 拓展 模块 ， 再 优秀 的 话 ， 也 能 被 加 入 核心 模块 。 


本 节 会 为 读者 朋友 介绍 一 些 常用 的 模块 ， 以 及 如 何 来 开发 自己 的 Ansible 模 块 。 


Ansible 常 用 模块 介绍 


目前 Ansible 已 经 包含 了 很 多 现成 的 模块 ， 在 安装 完 Ansible 之 后 ， 可 以 使 用 ansible-doc-| 来 列 出 所 有 可 用 的 模块 ， 笔 者 默认 安装 的 Ansible 1.9.4 中 ， 截 至 2016 年 4 月 ，Ansible 包 含 的 可 用 模块 为 436 
个 。 这 些 模块 包含 16 个 大 类 ， 在 Ansible 官 网 http://docs.ansible.com/ansible/modules_by_category.html 对 这 些 分 类 及 用 法 都 有 比较 详细 的 介绍 。400 多 个 模块 ， 我 们 不 可 能 全 部 记 住 ， 也 不 可 能 全 部 都 


得 到 ， 所 以 这 节 就 来 教会 大 家 ， 如 何 查 找 自己 需要 的 模块 ， 以 及 如 何 使 用 这 些 模块 。 


查找 Ansible 模 块 有 两 个 办 法 ， 第 一 ， 使 用 ansible-doc-| 可 以 列 出 所 有 支持 的 模块 名 称 和 简单 说 明 ， 比 如 需要 查找 mysql 相 关 的 模块 有 哪些 ， 最 简单 的 可 以 使 用 ansible-doc-llgrep mysql。 第 二 ,通过 


上 面 列 的 这 个 Ansible 官 方 网 址 ， 从 分 类 开始 找 对 应 的 模块 。 


那么 ， 常 用 的 Ansible 模 块 有 哪些 呢 ? 


command 模块 : 用 于 在 目的 主机 中 执行 命令 。 

“shell 模 块 : 与 command 一 样 用 于 执行 命令 ， 但 是 shell 模 块 还 支持 变量 和 管道 等 高 级 特性 。 

:fle 模 块 : 对 目的 主机 的 文件 进行 操作 ， 比 如 权限 ， 创 建 ， 删 除 等 。 

: copy 模块 : 将 本 地 某 个 文件 ， 推 送 到 目的 主机 上 。 

.template 模块 : 模板 管理 模块 ， 用 于 管理 服务 的 配置 文件 ， 在 模板 中 可 以 定义 变量 来 实现 差异 化 服务 配置 部 署 。 
“git 模块: 使 用 git 来 发 布 程序 或 者 版 本 。 

“yum 或 者 apt 模 块 : 软件 包 管 理 模块 ， 用 于 安装 ， 印 载 菜 个 软件 包 。 

“service 模 块 : 管理 服务 状态 的 模块 ， 比 如 启动 或 者 停止 菜 个 服务 。 


' setup 模 块 : 数据 采集 模块 ， 用 于 从 目的 主机 收集 系统 信息 。 


以 上 这 些 都 是 最 常用 的 模块 ， 具 体 如 何 使 用 ， 可 以 使 用 ansible-doc-s module-name 或 者 官方 网 站 查看 到 该 模块 的 详细 用 法 说 明 。 


如 何 开 发 Ansible 模 块 


Ansible 本 身 是 由 Python 开发 的 ， 所 以 在 开发 Ansible 模 块 的 时 候 ， 建 议 使 用 Python 语言 ， 但 是 它 还 支持 其 他 编程 语言 ， 不 过 也 是 有 前 提 的 ， 需 要 该 语言 必须 能 支持 文件 的 输入 输出 ， 以 及 标准 输出 。 我 
们 常见 的 语言 ， 比 如 bash，，C++，Python，Ruby 等 都 是 支持 的 。 对 于 运 维 人 员 来 说 ， 最 熟悉 的 莫 属 bash。 在 Ansible 官 方 文档 http://docs.ansible.comyVansible/developing_modules.html 中 已 经 举 了 


一 个 用 Python 写 的 最 简单 的 模块 实例 ， 介 绍 的 比较 清楚 ， 笔 者 在 此 就 不 重复 了 。 


既然 运 维 的 同学 们 都 熟悉 bash， 那 么 如 何 用 bash 来 编写 Ansible 模 块 呢 ? 本 节 就 通过 举例 用 bash 来 写 一 个 Ansible 的 模块 。 


在 开发 Ansible 模 块 之 前 ， 先 git 一 下 ，Ansible 的 源 代 码 ， 因 为 其 中 有 我 们 调试 过 程 中 需要 的 工具 。 


[root(localhost ~]#git clone https://github.com/ansible/ansible.git 
[root8localhost ~]#cd ansible 

[rootelocalhost ansible]# ansible --version 

ansible 1.9.4 

[rootélocalhost ansible]#git checkout v1.9.4-1 //checkout 当 前 ansible 接 近 的 版 本 
[rootülocalhost ansible]#chmod +x hacking/test-module 


test-module 工 具 用 于 检查 和 调试 用 户 自行 开发 的 Ansible 模 块 。 


在 /etc/ansible/ansible.cfg 中 定义 了 自 定义 模板 的 路 径 , 将 '# 注释 去 掉 ， 然 后 ， 只 需要 将 开发 好 的 模板 放 在 这 个 路 径 ，ansible 就 可 以 找到 自 定义 模板 


[root(localhost ~]# cat /etc/ansible/ansible.cfg |grep library 
library = /usr/share/my modules/ 


笔者 使 用 bash 编 写 了 一 个 Ansible 自 定义 模板 ， 功 能 很 简单 ， 就 是 添加 、 删 除 hosts 记 录 ， 当 然 这 个 功能 可 以 直接 使 用 fileinline 这 个 模块 实现 ， 这 里 只 是 为 了 说 明 如 何 编写 模块 。 


创建 一 个 模块 ， 命 名 为 EdHosts， 存 放 于 /usr/share/my_modules/ 目 录 下 ，Ansible 会 将 文件 名 识别 成 模块 名 称 。 


#!/bin/bash 


set -e 

source ${1} 

changed-"false" // 定 义 changed 的 默认 值 为 false 

failed=false // 定 义 failed 的 值 为 false，ansible 由 这 个 值 判断 成 功 或 失败 
HOSTFILE-/etc/hosts // 指 定 hosts 文 件 路 径 

if [ -z "$hostname" -o -z "$ipaddress" -o -z "$state" ];then 


printf '("failed":true,"msg":"missing required arguments: hostname, ipaddress,state"]' 
<--! 检 查 参 数 定义 ， 使 用 printf 和 输出 一 个 字典 ， 其 中 failed;， true，ansible 就 此 判断 任务 failed!--> 
exit 
fi 
add ip hostname()( ”// 添 加 hosts 的 具体 操作 
if [ $(cat $HOSTFILE|grep $(hostname]M$|grep $ipaddress|wc -1) -eq 0 ];then 
echo -e "$ipaddress\t\t$hostname" >>$HOSTFILE 
changed-"true" //changed 参 数 ， 因 为 模块 已 经 执行 了 添加 操作 ， 所 以 赋值 true 
fi 
l 
del ip hostname () { // 删 除 host 的 具体 操作 
if [ $(cat SHOSTFILE|grep ${hostname}\$|grep $ipaddress|wc -1) -ne 0 ] ;then 
del=$ (cat SHOSTFILE|grep ${hostname}\$|grep $ipaddress) 
sed -i "/$del\$/d" $HOSTFILE < // 使 用 sed 命 令 来 删除 hosts 记 录 
changed-"true" 
fi 
} 
case $state in 
add) 
add ip hostname 
remove) 
del ip hostname 
5 H 


printf '["failed":true, msg":"arguments:state support [add|remove]")"' 


exit 
esac 
printf '("changed": $s, "hostname": "%s", "ipaddress": "$s","state": "$s" )' "$changed" "$hostname" "$ipaddress" "$state" 
// 输 出 结果 ， 脚 步 开头 定 义 默认 failed: false， 此 处 因为 执行 完成 ， 所 以 省 略 默认 的 failed:， false 
exit 0 


Tk 


上 面 用 bash 编 写 的 Ansible 自 定义 模块 功能 非常 简单 。 需 要 注意 的 就 是 ， 输 出 的 时 候 ， 要 使 用 printf 和 输出 一 个 字典 格式 的 字符 串 。 编 写 完成 之 后 ， 先 使 用 test-module 工 具 来 调试 模块 。 


[root(localhost ~]# ansible/hacking/test-module -m 

/usr/share/my modules/EdHosts -a "hostname-abcd  ipaddress-2.2.2.2 
state-remove"  // 调 试 删除 hosts 文 件 中 的 一 条 记录 

* including generated source, if any, saving to: /root/.ansible module generated 
* this may offset any line numbers in tracebacks/debuggers! E ni 

AE AE A E AE K E A K FE A K AE A K K AE K E A E AE K AE A K AE A E E 

RAW OUTPUT  // 输 出 结果 给 出 了 两 种 视图 : 裸 视图 、JSON 视 图 


{"changed": false, "hostname": "abcd","ipaddress": "2.2.2.2","state": "remove" } 


dekdokcekokcke keokckedokckekekcdokekek ek dekekekejekkeiek 


PARSED OUTPUT 

{ 
"changed": false, 
"hostname": "abcd", 
"ipaddress": "2.2.2.2", 
"state": "remove" 


以 下 是 通过 Ansible 名 字 直 接 执行 的 向 hosts 中 添加 IP 和 hostname。 


root@ localhost ~]# ansible 192.168.122.128 -m EdHosts -a "hostname-abcd ipaddress=2.2.2.2 state-add" 
192.168.122.128 | success >> ( 

"changed": true, // 表 示 添 加 成 功 

"hostname": "abcd", 

"ipaddress": "2.2.2.2", 

"state": "add" // 操 作 状 态 是 添加 ip 和 hostname 


完 这 个 bash 编 写 的 Ansible 模 块 ， 读 者 朋友 是 不 是 发 现 ， 模 块 开 发 其 实 并 没有 想象 的 那么 难 。Ansible 本 身 是 由 Python 开发 的 ， 所 以 在 模块 开发 过 程 中 最 好 还 是 使 用 Python ， 感 兴趣 的 读者 朋友 不 妨 
可 以 用 Python 试 一 下 ， 其 实 也 是 很 简单 的 。 


最 佳 实践 95: 理解 Ansible 揪 件 


在 Ansible 原 理 与 架构 部 分 ， 介 绍 了 Ansible 有 6 大 组 件 ， 其 中 一 个 就 是 插件 。Ansible 通 过 插件 的 方式 ， 大 大 提高 了 灵活 性 和 可 定制 性 。 插 件 又 被 分 为 6 个 不 同 的 类 型 ， 具 体 如 下 。 


: Connection Plugins: 连接 插件 。 
* Lookup Plugins: 检查 插件 。 

“ Vars Plugins: 变量 处 理 插件 。 

- Filter Plugins: 过 滤 揪 件 。 

* Callbacks Plugins: 回 叫 插件 。 


- Action Plugins: 动作 插件 。 


以 上 6 种 插件 中 ，Callbacks 插 件 ， 使 用 的 比较 多 ， 它 的 作用 是 通过 Ansible 执 行 任务 时 返回 的 状态 来 触发 一 个 操作 ， 比 如 ， 打 印 详细 的 操作 日 志 、 执 行 任务 出 错 是 触发 告警 等 。 


在 /etc/ansible/ansible.cfg 配 置 文件 中 ， 定 义 了 各 种 插件 的 路 径 ， 默 认 在 如 下 路 径 : 


# set plugin path directories here, separate with colons 
action plugins = /usr/share/ansible plugins/action plugins 
callback plugins = /usr/share/ansible plugins/callback plugins 


Connection Plugins 
lookup plugins 
vars plugins 
filter plugins 


/usr/share/ansible plugins/connection plugins 
/usr/share/ansible plugins/lookup plugins 
/usr/share/ansible plugins/vars plugins 
/usr/share/ansible plugins/filter plugins 


我 们 只 需要 将 相应 的 插件 放 到 对 应 的 目录 下 即 可 。 在 官方 的 github 中 提供 了 很 多 现成 的 插件 可 以 使 
log_plays.py， 它 的 代码 分 两 个 部 分 。 


，git clonehttps://github.com/ansible/ansible.git。 本 节 就 来 着 重 说 明 一 个 callbacks 插 件 


class CallbackModule (object): 


logs playbook results, per host, in /var/log/ansible/hosts 
def on any(self, *args, **kwargs): 
pass 
def runner on failed(self, host, res, ignore errors-False): 
log(host, 'FAILED', res) // 任 务 执行 失败 时 ， 回 调 runner_on_failed 函 数 
def runner on ok(self, host, res): 
log(host, 'OK', res) // 任 务 执行 成 功 时 ， 回 调 runner_on_failed 函 数 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 


一 个 是 类 CallbackModule， 这 个 类 是 Ansible 中 定义 好 的 ， 其 中 包含 多 个 函数 ,执行 成 功 的 函数 runner_on_ok， 执 行 失败 的 函数 runner_on_failed 等 ， 这 些 函数 在 Ansible 执 行 结束 的 时 候 被 自动 回 


def log(host, category, data): 
if type(data) 一 dict: 
if 'verbose override' in data: 
# avoid logging extraneous data from facts 
data = 'omitted' 
else: 
data = data.copy() 
invocation = data.pop('invocation', None) 
data = json.dumps (data) 
if invocation is not None: 
data = json.dumps (invocation) + " => $s 
path = os.path.join("/var/log/ansible/hosts", host) 
now = time.strftime(TIME FORMAT, time.localtime()) 
fd = open(path, "a") 
fd.write(MSG FORMAT $ dict(now-now, category-category, data-data)) 


" $ data 


fd.close() 
一 个 是 用 于 记录 log 的 操作 函数 ， 当 Ansible 回 调 进 状态 函数 之 后 ， 我 们 就 可 以 把 自己 想 要 做 的 事 写 在 这 些 回调 函数 中 ，log_plays.py 中 就 定义 了 一 个 操作 函数 log (host, category, data) ， 用 来 记录 
详细 的 执行 结果 日 志 。 


Callbacks 插 件 就 是 这 个 原理 ， 明 白 之 后 ， 就 简单 了 ， 我 们 可 以 写 自 己 需要 的 操作 函数 ， 放 在 对 应 的 回调 函数 中 就 可 以 了 ， 比 如 执行 错误 发 邮件 或 者 发 短信 ， 都 是 很 简单 可 以 完成 的 。 


最 佳 实践 96: Ansible 自 动 化 运 维 实例 : Ansible 自 动 安装 配置 zabbix 客 户 端 


在 上 面 的 章节 中 ， 介 绍 了 很 多 Ansible 原 理性 的 东西 ， 


Zabbix 是 目前 使 有 
以 如 果 
Ansible 写 成 Playbook 是 非常 有 意义 的 。 


下 面 先 来 分 解 一 下 ， 安 装 Zabbix Agent 需 要 几 步 操作 。 


最 终 还 是 需要 在 实际 应 用 中 发 挥 作用 的 。 通 过 一 个 


体 的 例子 ， 向 读者 朋友 介绍 ， 如 何 拆 分 一 个 任务 ， 并 组 织 其 中 的 关系 。 


非常 多 的 一 款 开 源 的 监控 工具 ， 本 书 的 第 12 章 已 经 对 它 做 过 介绍 了 。Zabbix Server 和 Zabbix Proxy 的 安装 部 署 一 般 只 在 初始 搭建 的 时 候 操作 一 次 ， 搭 建 完 成 之 后 就 很 少 再 去 动 ， 所 
Ansible 写 成 自动 化 部 署 任务 意义 并 不 是 很 大 。 而 Zabbix Agent 的 安装 却 是 经 常 要 做 的 操作 ， 比 如 新 服务 器 上 架 ， 都 需要 接 入 Zabbix 监 控 。 所 以 对 于 这 类 需 


经 常 使 用 的 反复 操作 的 任务 ， 使 


第 一 步 ， 系 统 环境 配置 ， 添 加 epel 的 源 。 
第 二 步 ， 安 装 Zabbix Agent 程 序 。 
第 三 步 ， 更 新 zabbix-agent 配 置 文件 。 
第 四 步 ， 刷 新 配置 ， 重 启 zabbix-agent 服 务 。 
总 体 的 目录 结构 如 下 : 
root@localhost zabbix]# tree 
[— roles 
common // 定 义 通用 的 操作 
[— files 
E epel.repo 
RPM-GPG-KEY-EPEL-6 
[— handlers 
—— tasks 
[一 main.ymi ”// 定 义 通用 操作 的 任务 文件 
zabbix-Agent ”// 定 义 zabbix-agent 部 署 任务 
| 一 files // 存 放 zabbix 客户 端 需要 的 安装 包 
[— zabbix-2.4.5-1.e16.x86 64.rpm 
[— zabbix-agent-2.4.5-1.e16.x86 64.rpm 
—— zabbix-sender-2.4.5-1.e616.x86 64.rpm 
[— handlers 
[一 main.ym] ， // 定 义 handlers 触 发 任务 
[— tasks 
[一 main.yml ”//zabbix-agent 部 署 任务 文件 
L— templates // 存 放 zabbix 的 配置 文件 模板 
zabbix agentd conf.ja2 
L— site.yml //roles Playbook 的 入 口 文件 


使 用 roles 组 织 Playbook 之 后 ， 发 现 结构 非常 的 清楚 ， 在 site.yml 中 ， 只 需要 引 


roles 就 可 以 了 ， 非 常 方便 、 清 晰 。 


[root@localhost zabbix]# cat site.yml 


: Install zabbix agent 2.4.5 
: webserver // 定 义 主机 组 ， 所 有 webserver 组 的 主机 将 安装 zabbix 客户 端 

remote user: root // 定 义 执行 任务 的 远程 用 户 
vars: 

- zabbix server: 172.16.100.61 ”// 定 义 变量 ，zabbix 服务 器 地 址 
roles: // 引 入 roles 

- common 

- zabbix-Agent 


由 于 篇 幅 有 限 ， 笔 者 就 不 再 : 


将 每 个 文件 的 内 容 进行 说 明了 ， 使 用 roles 组 织 Playbook， 只 要 任务 拆 分 做 好 之 后 ， 各 文件 中 的 内 容 都 是 非常 清楚 的 。 有 兴趣 的 读者 ， 可 以 通过 以 下 地 址 获取 。 


git clone https://github.com/nameyj;j/Ansible-zabbix-agent-roles.git 


本 章 小 结 


通过 本 章节 介绍 ， 读 者 朋友 对 Ansible 的 原理 ，Playbook 的 使 用 ，Roles 的 概念 ，Ansible 的 模块 开发 以 及 Ansible 的 插件 都 有 了 一 些 了 解 ， 如 果 读 者 朋友 所 在 的 公司 正在 进行 自动 运 维 工 具 的 选 型 ， 不 妨 将 此 
作为 一 个 参照 来 看 ， 进 一 步 测试 和 研究 之 后 ， 你 一 定 会 发 现 Ansible 真 的 很 强大 。 


nies. nih zue > 
第 20 章 ”掌握 端 游 运 维 的 技术 要 点 

网 络 游戏 ， 英 文 名 称 为 Online Game， 又 称 “ 在 线 游戏 ”， 简 称 “ 网 游 ”。 指 以 互联 网 为 传输 媒介 ， 以 游戏 运营 商 服 务 器 和 用 户 计算 机 为 处 理 终端 ， 以 游戏 客户 端 软件 为 信息 交互 窗口 的 旨 在 实现 娱乐 、 
休闲 、 交 流 和 取得 虚拟 成 就 的 具有 可 持续 性 的 个 体 性 多 人 在 线 游戏 。 按 照 客户 端的 形式 不 同 ， 网 络 游戏 大 致 可 以 分 为 以 下 3 类 。 

: 端 游 ， 即 客户 端 游戏 ， 是 传统 的 依靠 下 载 客 户 端 、 在 电脑 上 进行 的 网 络 游戏 ， 例 如 《魔兽 世界 》、《 热 血 传奇 》 等 。 

“ 手 游 ， 即 手机 游戏 。 手 机 游戏 是 指 运行 于 手机 、Pad 等 移动 终端 上 的 游戏 软件 ， 例 如 《我 叫 MT》、 《超级 地 城 之 光 》 等 。 


“ 页 游 ， 即 网 页 游戏 。 网 页 游戏 又 称 Web 游 戏 ， 无 端 网 游 ， 简 称 页 游 。 是 基于 Web 浏 览 器 的 网 络 在 线 多 人 互动 游戏 ， 无 须 下 载 客户 端 ， 不 存在 机 器 配置 不 够 的 问题 ， 例 如 《帝国 文明 》 等 。 


端 游 一 般 具 有 以 下 特点 。 


“ 架构 复杂 。 大 型 端 游 服务 器 端 一 般 有 多 种 角色 的 程序 ， 如 负责 游戏 客户 端 网 络 接 入 的 GameGate (游戏 网 关 服 务 器 ) 、 负 责 游戏 内 容 计 算 的 GameServer (游戏 服务 器 ) 、 负 责 地 图 的 Zone (区 域 ) 服务 
器 及 数据 库 服务 器 、 计 费 认证 服务 器 、 安 全 审计 服务 器 、 聊 天 服务 器 等 。 


“ 客户 端 巨大 。 比 如 《魔兽 世界 》， 现 在 的 客户 端 文件 达到 了 23450MB (官方 最 新 客户 端 ) o 

“ 同时 在 线 人 数 巨 大 。 如 盛大 游戏 运营 的 《永恒 之 塔 》、《 龙 之 谷 》 等 网 络 游戏 最 高 同时 在 线 均 超 70 万 。 

“ 玩家 接 入 的 网 络 复杂 。 有 光纤 接 入 的 高 速 网 络 玩家 ， 也 有 ADSL 接 入 的 小 带宽 用 户 。 复 杂 的 网 络 环境 ， 为 端 游 运 维 提出 了 更 高 的 要 求 。 
以 上 的 4 个 特点 ， 使 得 端 游 运 维 充满 了 挑战 。 本 章 从 以 下 几 个 方面 对 端 游 运 维 的 技术 要 点 进行 闵 述 。 

“ 端 游 架构 : 阐述 大 型 端 游 的 架构 技术 要 点 。 

“ 游戏 运 维 体系 的 发 展演 进 。 

| 自动 化 管理 技术 。 

| 自动 化 监控 技术 。 

“ 运 维 安全 体系 。 

: 运 维 服务 管理 体系 。 


“ 运 维 体系 框架 建设 。 


最 佳 实践 97: 了 解 大 型 端 游 的 技术 架构 
服务 器 架构 设计 


根据 网 络 游戏 的 规模 和 设计 的 不 同 ， 每 组 服务 器 中 服务 器 种 类 和 数量 是 不 尽 相同 的 。 本 文 设计 出 的 带 网 关 服 务 器 的 服务 器 组 架构 如 图 20-1 所 示 。 
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图 20-1 大 型 端 游 的 架构 图 


本 文 将 服务 器 设计 成 带 网 关 服 务 器 的 架构 ， 虽 然 加 大 了 服务 器 的 设计 复杂 度 ， 但 却 带 来 了 以 下 几 点 好 处 。 


:作为 网 络 通信 的 中 转 站 ， 负 责 维护 将 内 网 和 外 网 隔离 开 ， 使 外 部 无 法 直接 访问 内 部 服务 器 ， 保 障 内 网 服务 器 的 安全 ， 一 定 程度 上 较 少 外 挂 的 攻击 。 
“ 网关 服务 器 负责 解析 数据 包 、 加 解密 、 超 时 处 理 和 一 定 逻 辑 处 理 ， 这 样 可 以 提前 过 滤 掉 错误 包 和 非法 数据 包 。 

“ 客户 端 程序 只 需 建 立 与 网 关 服 务 器 的 连接 即 可 进入 游戏 ， 无 须 与 其 他 游戏 服务 器 同时 建立 多 条 连接 ， 节 省 了 客户 端 和 服务 器 程序 的 网 络 资源 开销 。 
“ 在 玩家 跳 转 服务 器 时 ， 不 需要 断 开 与 网 关 服务 器 的 连接 。 玩 家 数据 在 不 同 游戏 服务 器 间 的 切换 是 内 网 切换 ， 切 换 工 作 瞬 间 完 成 ， 玩 家 几乎 察觉 不 到 ， 这 保证 了 游戏 的 流畅 性 和 良好 的 用 户 体验 。 
在 享受 网 关 服 务 器 带 来 上 述 好 处 的 同时 ， 还 需 注 意 以 下 可 能 导致 负面 效果 的 两 个 情况 。 


:网关 服务 器 在 高 负载 情况 下 成 为 通信 瓶颈 。 


“ 网 关 的 单 节点 故障 导致 整 组 服务 器 无 法 对 外 提供 服务 。 


上 述 两 个 问题 可 以 采用 “多 网 关 ” 技 术 加 以 解决 。 


思 义 ，“ 多 网 关 ” 就 是 同时 存在 多 个 网 关 服 务 器， 比如 一 组 服务 器 可 以 配置 3 台 GameGate。 当 负载 较 大 时 ， 可 以 通过 增加 网 关 服 务 器 来 增加 网 关 的 总 体 通信 流量 服务 能 力 ， 当 一 台 网 关 服务 器 宕 机 
时 ， 它 只 会 影响 连接 到 本 服务 器 的 客户 端 ， 其 它 客户 端 不 会 受到 任何 影 


过 


从 图 20-1 的 服务 器 架构 图 可 以 看 出 ， 一 般 服务 器 包括 LoginGate、LoginServer、GameGate、GameServer、DBSserver 等 多 种 服务 器 。LoginGate 和 GameGate 就 是 网 关 服 务 器 ， 一 般 一 组 服务 器 会 配 


置 3 台 或 者 多 台 GameGate， 因 为 稳定 性 对 于 网 络 游戏 运营 来 说 是 至 关 重 要 的 ,而 服务 器 宕 机 等 突 发 事件 是 游戏 运营 中 所 面临 的 潜在 风险 ， 配 置 多 台 服 务 器 可 以 有 效 地 降低 单个 服务 器 宕 机 带 来 的 风险 。 另 
外 ， 配 置 多 台 网 关 服 务 器 也 是 进行 负载 均衡 的 有 效 手段 之 一 。 


Load Balancer 支 持 TCP 层 调度 。 在 计算 领域 ， 负 载 均衡 是 指 把 工作 压力 分 发 到 多 个 计算 资源 ， 例 如 ， 计 算 机 、 计 算 机 集群 、 网 络 连接 、 中 央 处 理 器 或 者 硬盘 阵列 等 。 负 载 均衡 的 目的 是 ， 优 化 资源 使 
效率 、 最 大 化 吞吐 量 、 最 小 化 响应 时 间 、 避 免 某 个 计算 资源 过 载 等 。 使 用 多 个 带 负载 均衡 的 组 件 通过 增加 宛 余 度 来 代 蔡 一 个 单一 的 组 件 ， 可 以 增加 可 靠 性 和 可 用 性 。 负 载 均衡 通常 包括 专用 的 软件 或 者 硬 
件 ， 例 如 多 层 交 换 机 或 者 域名 调度 系统 等 。 常 用 的 商业 硬件 如 F5 LTM, Citrix NetScaler 等 以 及 开源 的 技术 方案 LVS、HAProxy 等 都 可 以 实现 。 在 调度 的 基础 上 ， 同 时 增加 对 Server Group 中 服务 器 的 监控 
及 健康 检查 机 制 ， 如 发 现 基于 某 些 特定 配置 的 监控 选项 失败 ， 则 从 调度 队列 中 删除 ， 以 屏蔽 访问 。 


负载 均衡 建立 在 现 有 网 络 结构 之 上 ， 它 提供 一 种 廉价 有 效 透明 的 方法 扩展 网 络 设备 和 服务 器 的 带宽 ， 增 加 吞吐 量 ， 加 强 网 络 数 据 处 理 能 力 ， 提 高 网 络 的 灵活 性 和 可 用 性 。 需 要 说 明 的 是 ， 负 载 均衡 设备 


不 是 基础 网 络 设备 ， 而 是 一 种 性 能 优化 设备 。 对 于 网 络 应 用 而 言 ， 并 不 是 一 开始 就 需要 负载 均衡 ， 当 网 络 应 用 的 访问 量 不 断 增长 ， 单 个 处 理 单元 无 法 满足 负载 需求 时 ， 网 络 应 用 流量 将 要 出 现 瓶 颈 时 ， 负 载 
均衡 才 会 起 到 作用 。 


负载 均衡 有 两 方面 的 含义 : 首先 ， 单 个 重负 载 的 运算 分 担 到 多 台 节 点 设备 上 做 并 行 处 理 ， 每 个 节点 设备 处 理 结束 后 ， 将 结果 汇总 ， 返 回 给 用 户 ， 系 统 处 理 能 力 得 到 大 幅度 提高 ， 这 就 是 常 说 的 集群 


(Clustering) 技术 ， 例 如 Hadoop MapReduce 集 群 等 。 集 群 第 二 层 含义 就 是 ; 大 量 的 并 发 访问 或 数据 流量 分 担 到 多 台 节点 设备 上 分 别处 理 ， 减 少 用 户 等 待 响应 的 时 间 ， 这 主要 针对 Web 服 务 器 、FTP 服 务 
器 、 企 业 关 键 应 用 服务 器 等 网 络 应 用 。 


通常 ， 负 载 均衡 会 根据 网 络 的 不 同 层次 (网 络 7 层 ) 来 划分 。 其 中 ， T en ee NER ， 这 就 是 链 路 聚合 (Trunking) 技术 ， 它 不 是 一 种 独立 的 设 
备 ， 而 是 交换 机 等 网 络 设备 的 常用 技术 。 现 代 负 载 均衡 技术 通常 操作 于 网 络 的 第 四 层 或 第 七 层 ， 这 是 针对 网 络 应 用 的 负载 均衡 技术 ， 它 完全 脱离 于 交换 机 、 服 务 器 而 成 为 独立 的 技术 设备 。 


服务 器 角色 说 明 及 通信 原理 


下 面 将 对 各 种 服务 器 的 主要 功能 和 彼此 之 间 的 数据 交互 做 详细 解释 。 


' LoginGate: 主要 负责 在 玩家 登录 时 维护 客户 端 与 LoginServet 之 间 的 网 络 连接 与 通信 ， 对 LoginServer 和 客户 端的 通信 数据 进行 加 解密 、 校 验 。 


* LoginServer: 主要 功能 是 验证 玩家 的 账号 是 否 合法 ， 只 有 通过 验证 的 账号 才能 登录 游戏 。 从 架构 图 可 以 看 出 ，DBServer 和 GameServet 会 连接 LoginServer。 玩 家 登录 基本 流程 是 ， 客 户 端 发 送 账号 和 密码 
到 LoginServer 验 证 ， 如 果 验 证 通过 ，LoginServer 会 给 玩家 分 配 一 个 SessionKey，LoginServer 会 把 这 个 SessionKey 发 送 给 客户 端 、 DBServer 和 GameServer， 在 后 续 的 选择 角色 以 后 进入 游戏 过 程 中 ，DBServer 和 
GameSetrvet 将 验证 SessionKey 合 法 性 ， 如 果 和 客户 端 携带 的 SessionKey 不 一 致 ， 将 无 法 成 功 获取 到 角色 或 者 进入 游戏 。 


` GameGate (GG) : 主要 负责 在 用 户 游戏 过 程 中 维持 GS 与 客户 端 之 间 的 网 络 和 连接 和 通信 ， 对 GS 和 客户 端的 通信 数据 进行 加 解密 和 校 验 ， 对 客户 端 发 往 GS 的 用 户 数据 进行 解析 ， 过 滤 错 误 包 ， 对 客户 端 
发 来 的 一 些 协议 作 简单 的 逻辑 处 理 ， 其 中 包括 游戏 逻辑 中 的 一 些 超时 判断 。 在 用 户 选择 角色 过 程 中 负责 维持 DBServer 与 客户 端 之 间 的 网 络 连 接 和 通信 ， 对 DBServer 和 客户 端的 通信 数据 进行 加 解密 和 校 验 ， 
对 客户 端 发 往 DBServer 的 用 户 数 据 做 简单 的 分 析 。 


- GameServer (GS) : 主要 负责 游戏 逻辑 处 理 。 网 络 游戏 有 庞大 世界 观 背 景 ， 绚 丽 激烈 的 阵营 对 抗 以 及 完备 的 装备 和 技能 体系 。 目 前 ， 网 络 游戏 主要 包括 任务 系统 、 声 望 系统 、 玩 家 PK、 宠 物 系统 、 摆 
摊 系 统 、 行 会 系统 、 排 名 系统 、 副 本 系统 、 生 产 系 统 和 宝石 系统 等 。 从 软件 架构 角度 来 看 ， 这 些 系统 可 以 看 成 GS 的 子 系统 或 模块 ， 它 们 共同 处 理 整个 游戏 世界 逻辑 的 运算 。 游 戏 逻 辑 包 括 角色 进入 与 退出 游 
戏 、 跳 GS 以 及 各 种 逻辑 动作 (比如 行走 、 跑 动 、 说 话 和 攻击 等 ) 。 由 于 整个 游戏 世界 有 许多 游戏 场景 ， 在 该 架构 中 一 组 服务 器 有 3 台 GS 共 同 负责 游戏 远 辑 处 理 ， 每 台 游戏 服务 器 负责 一 部 分 地 图 的 处 理 ， 这 
样 不 仅 降低 了 单 台 服 务 器 的 负载 ， 而 且 降 低 了 GS 宕 机 带 来 的 风险 。 玩 家 角色 信息 里 会 保持 玩家 上 次 退出 游戏 时 的 地 图 编号 和 所 在 GS 编号 ， 这 样 玩家 再 次 登录 时 ， 会 进入 到 上 次 退出 时 的 GS。 上 面 提 到 过 ， 
在 验证 账号 之 后 ，LoginServer 会 把 这 个 SessionKey 发 给 GS， 当 玩家 选择 角色 登录 GS 时 ， 会 把 SessionKey 一 起 发 给 GS， 这 时 GS 会 验证 SessionKey 是 否 与 其 保存 的 相 一 致 ， 不 一 致 的 话 GS 会 拒绝 玩家 进入 游戏 。 


- DBServer: 主要 的 功能 是 缓存 玩家 角色 数据 ， 保 证 角色 数据 能 快速 地 读 取 和 保存 。 由 于 角色 数据 量 是 比较 大 的 ， 包 括 玩家 的 等 级 、 经 验 、 生 命 值 、 魔 法 值 、 装 备 、 技 能 、 好 友 、 公 会 等 。 如 果 每 次 GS 
获取 角色 数据 都 去 读数 据 库 ， 效 率 必然 非常 低下 ， 用 DBServer 缓 存 角 色 数 据 之 后 ， 极 大 地 提高 了 数据 请 求 的 响应 速度 。LoginServer 会 在 玩家 选 组 时 把 SessionKey 发 给 DBServer， 当 玩家 发 送 获取 角色 信息 协议 
时 会 带 上 这 个 SessionKey， 如 果 跟 DBServer 保 存 的 SessionKey 不 一 致 ， 则 DBServet 会 认为 玩家 不 是 合法 用 户 ， 获 取 角 色 协 议 将 会 失败 。 另 外 ， 玩 家 选取 角色 正式 进入 游戏 时 ，GS 会 给 DBServet 发 送 携带 
SessionKey 的 获取 角色 信息 协议 ， 这 时 DBServer 同 样 会 验证 SessionKey 的 合法 性 。 总 之 ， 只 有 客户 端 、DBServer 和 GS 所 保存 的 SessionKey 一 致 ， 才 能 保证 协议 收 到 成 功 反 馈 。 与 DBServer 通 信 的 服务 器 主要 有 
GG，GS 和 LoginServer，DBServer 与 GG 交互 的 协议 主要 包括 列 角 色 、 创 建 角色 、 删 除 角 色 、 恢 复 角 色 等 ，DBServer 与 GS 交互 的 协议 包括 读 取 角色 数据 、 保 存 角 色 数 据 和 跳 服 务 器 等 ，DBServer 与 LoginServer 交 
互 的 协议 主要 是 用 户 登 录 协 议 ， 这 时 候 会 给 DBServer 发 送 SessionKey。 


网 络 游戏 服务 器 的 架构 设计 已 经 成 为 当前 网 络 游戏 研究 领域 的 热点 ， 因 为 高 性 能 服务 器 架构 设计 是 一 款 网 络 游戏 成 功 的 关键 。 


最 佳 实践 98: 理解 游戏 运 维 体系 发 展 历程 
在 上 一 个 最 佳 实践 中 ， 我 们 了 解 到 大 型 庙 游 的 架构 技术 ， 可 以 看 到 组 件 种 类 多 、 角 色 复杂 、 组 件 之 间 的 数据 交互 和 关联 性 大 。 和 所 有 运 维 体系 的 发 展 过 程 一 样 ， 网 络 游戏 ,特别 是 端 游 ， 经 历 了 以 下 的 
AERE. 


“ 手工 操作 、 人 海战 术 。 这 个 阶段 的 特点 是 没有 任何 辅助 的 批量 化 管理 工具 和 平台 ， 完 全 由 运 维 人 员 登 录 到 服务 器 上 ， 通 过 Linux 命 令 行 或 者 Windows 窗 口 化 工具 来 部 署 游戏 程序 。 由 此 可 以 看 出 ， 这 个 
阶段 耗费 了 大 量 人 力 、 每 个 工程 师 可 运 维 服务 器 数量 过 低 、 操 作 不 规范 容易 出 错 。 


“ 可 操作 阶段 。 随 着 游戏 规模 的 增加 、 游 戏 服 务 器 数量 的 增长 ， 纯 手工 操作 已 经 跟 不 上 业务 的 要 求 了 。 此 时 需要 构建 一 系列 批量 管理 平台 ， 使 得 运 维 人 员 通 过 操作 平台 即 可 管理 批量 服务 器 、 批 量 部 署 
游戏 程序 、 开 区 合 服 等 操作 。 这 个 阶段 以 提高 生产 率 为 主要 目标 。 


“ 可 控制 阶段 。 游 戏 批量 部 署 后 ， 通 过 构建 全 方位 的 监控 系统 ， 能 够 让 运 维 人 员 快 速 准确 地 发 现 和 定位 故障 ， 提 高 运 维稳 定性 。 


“ 可 管理 阶段 。 在 完成 了 可 操作 、 可 控制 的 目标 后 ， 通 过 引入 ITIL、 人 安全 标准 、 项 目 管理 知识 等 ， 建 设 规范 化 、 标 准 化 的 运 维 体系 ， 在 流程 和 安全 性 方面 全 面 提升 。 


以 上 的 4 个 环节 ， 是 逐步 扩展 和 丰富 的 过 程 ， 每 一 个 后 续 过 程 以 前 一 个 过 程 的 实现 为 基础 ， 在 运 维 质量 、 效 率 、 全 面 性 、 合 规 性 方面 进行 补充 和 优化 。 


以 盛大 游戏 为 例 ， 我 们 实践 各 个 层次 的 运 维 体系 的 发 展 过 程 如 图 20-2 所 示 。 


可 管理 


可 控制 


为 了 更 好 支持 快速 发 展 的 业务 ， 运 维 工 作 必须 朝 着 规范 化 、 
标准 化 、 可 管理 的 方向 发 展 。2008 年 起 盛大 游戏 逐步 引入 ITIL、 
安全 标准 等 理念 ， 打 造 盛大 游戏 模式 的 运 维 体系 。 


可 操作 


随 着 自动 化 体系 日 益 丰富 ， 盛 大 游戏 开始 建立 
监控 系统 ， 快 速 准确 地 发 现 和 定位 故障 ， 提 高 运 


自 2004 年 开始 ， 随 着 服务 器 数量 的 快速 增长 ， 盛 大 游戏 
着 手 建立 游戏 远程 操作 平台 ， 使 运 维 逐 渐 摆 脱 依赖 人 海战 
术 的 模式 ， 提 高 生产 率 。 


图 20-2 ”盛大 游戏 运 维 体系 的 发 展 历程 


最 佳 实践 99: 自动 化 管理 技术 


平台 架构 与 设计 原则 


提高 运 维 效率 的 第 一 步 是 构建 一 套 服务 器 操作 管理 平台 。 图 20-3 所 示 为 目前 我 们 使 用 到 的 服务 器 批量 自动 化 管理 操作 平台 架构 图 。 


在 设计 自动 化 管理 平台 时 ， 有 以 下 的 规范 推荐 给 读者 。 


“ 操作 平台 基于 B-S 架 构 ( 浏 览 器 -服务 器 端 。 基 于 B-S 架 构 时 ， 对 于 运 维 工 程 师 来 讲 ， 不 需要 安装 额外 的 软件 ， 有 个 能 上 网 的 PC 即 可 ， 甚 至 基于 移动 互联 网 也 可 以 进行 服务 器 维护 ， 提 高 灵活 性 。 


CMDB 服 务 器 


Octopod 服 务 器 
Web 操 作 平 台 


Windows 游 戏 服务 器 


idg 


solaris 
Solaris 游 戏 服 务 器 
批 处 理 指 < 


FreeBSDi/£X HRI Ai 


图 20-3 ”服务 器 批量 自动 化 管理 操作 平台 架构 图 


- 确保 CMDB (Configuration Management Database， 配 置 管理 数据 库 ) 数据 完备 性 、 准 确 性 。CMDB 记 录 了 主机 的 角色 信息 (如 所 运行 的 游戏 、 分 区 分 组 、 程 序 运行 目录 等 ) 、 主 机 IP 信 息 (内 外 网 IP、 
带 外 管理 IP 地 址 等 ) 、 主 机 操作 系统 信息 及 与 相关 网 络 设备 互联 信息 等 。 保 障 该 数据 完备 性 、 准 确 性 的 方法 是 : 首先 需要 结合 服务 器 上 架 、 下 架 、 机 房 迁 移 等 同时 进行 更 新 ， 同 时 使 用 程序 加 人 工 的 方式 进 
行 定期 检查 核实 。 


- 集中 化 管理 平台 使 用 通用 安全 协议 管理 各 种 异 构 的 操作 系统 服务 器 。SSH 是 Secure Shell 的 缩写 ， 由 IETF 的 网 络 工作 小 组 (Network Working Group). 所 制定 ; SSH 是 建立 在 应 用 层 和 传输 层 基础 上 的 安全 
协议 。SSH 是 目前 较 可 靠 ， 专 为 远程 登录 会 话 和 其 他 网 络 服务 提供 安全 性 的 协议 。 采 用 SSH 管 理 游戏 服务 器 ， 相 对 于 自 有 的 协议 实现 来 说 ， 更 加 成 熟 开 放 、 安 全 性 得 到 过 充分 验证 、 开 发 成 本 更 低 。 在 
Linux、FreeBSD、Solaris 等 操作 系统 上 ， 都 可 以 直接 部 署 OpenSSH 的 服务 器 端 ， 在 Windows 操 作 系 统 上 ， 可 以 使 用 Cygwin 环 境 部 署 OpenSSH 的 服务 器 端 。 同 时 ， 对 于 不 同 的 操作 系统 ， 根 据 用 户 的 操作 习惯 不 
同 ， 可 以 另外 建立 RDP 协 议 〈 远 程 桌面 ) 通道 和 VNC 协 议 通 道 以 方便 用 户 执 行 图 形 化 程序 。 


“ 集成 带 外 管理 。 传 统 的 服务 器 管理 方式 采用 带 内 管理 ， 也 就 是 通过 操作 系统 提供 的 网 络 通道 进行 管理 。 随 着 对 运 维 效率 的 要 求 增加 和 减少 机 房 职守 人 员 的 方面 考虑 ， 带 外 管理 越 来 越 受到 重视 。 关 于 
批量 带 外 管理 的 技术 细节 ， 可 以 参考 本 书 “ 第 18 章 利用 Pedl 编 程 实施 高 效 运 维 ” 中 的 “最 佳 实践 89: 批量 管理 带 外 配置 ”内 容 。 


“ 并 发 处 理 。 在 大 量 服务 器 上 执行 本 地 无 关联 的 操作 时 ， 需 要 并 发 执行 ， 以 提高 程序 执行 效率 、 缩 短 用 户 等 待 时 间 。 
: 超时 及 重 试 机 制 。 在 执行 耗 时 较 大 的 任务 或 者 处 理 异常 时 ， 需 要 使 用 合理 的 超时 机 制 通知 用 户 ; 同时 ， 增 加 重 试 机 制 ， 保 障 任务 执行 成 功率 。 
“ 平台 的 安全 机 制 。 通 过 遵循 “第 11 章 实施 Linux 系 统 安全 策略 与 入 侵 检测 ”的 最 佳 实践 ， 可 以 最 大 限度 地 保障 操作 平台 的 安全 。 操 作 平 台 的 管理 人 员 ， 是 安全 机 制 最 终 的 执行 者 。 确 保 这 些 最 佳 实践 的 


执行 ， 需 要 对 这 些 管理 员 进 行 安全 意识 的 培训 及 定期 的 安全 策略 扫描 。 


平台 功能 划分 


自动 化 管理 按照 功能 ， 可 以 划分 为 以 下 分 类 。 


“ 系统 查看 类 ， 如 图 20-4 所 示 。 
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查询 帐号 口令 
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_ 查询 目录 
要 得 词 的 目录 名 【 否 不 支持 中 文 目 录 名 | 
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图 20-4 系统 查看 类 操作 图 
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图 20-5 ”网 络 查看 类 操作 图 


“ 网络 查看 类 ， 如 图 20-6 所 示 。 


L| DBBSLI S tes 
测试 用 户 名 


" Sipcecsptablesio ARN 
—| 连 网 补丁 检查 


| 查看 系统 和 系统 软件 打 补丁 的 情况 四 


| 检查 服务 器 recent 目 录 下 访问 交 件 记录 


检查 program files 目 录 下 内 容 
NE 检 音 已 安装 的 软件 
“| RARES AtS 


站 linux 屏 幕 录 你 (项 先 装 远程 日 志 收 集 ] 
BF XE ” 


日 志 收 集 服务 器 ( 促 对 外 网 服务 颖 ) 110 EN 
中 | zEESHESSBE 
INE 修改 账号 口才 


用 户 名 Guest 
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选择 时 区 GMT+8 = 
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HITE ms hd 
[| 自动 设置 时 区 后 MT+8: 京 标准 时 间 
[| 修改 Gina 保 胃口 令 
二 | 删除 吕 盘 目录 或 文件 
HEDER (RDA ) 


图 20-7 系统 设置 类 操作 图 


|] pcAnywhere 启 动 /停止 服务 
执行 授 作 ”启动 - 


[] 删除 共享 
|] 关闭 NETBIOS 
O 安装 Gina 模 块 


[| 候 改 Gina 路 由 慑 务 器 Jp 
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地 址 二 (IP:Port) 22249 m008m 
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L] 修正 octopod 数 据 库 存储 的 服务 需 密码 
用 户 名 


m 
NE 服务 模式 切换 


运行 模式 “手动 ~ 

O 启动 /停止 服务 器 性 能 计数 
执行 摇 作 启动 v 

O 服务 器 关机 

O 获取 硬件 码 
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IEA] ee 
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[^] 启动 /关闭 /重启 虚拟 机 
BRISE FR ~ 
CO 安装 屏幕 录像 

执行 摊 作 ”安装 v 


编码 服务 号 IP UMEEEEEEN 
[7] 激活 w2k8、w2kl2( 需 通 大 内 网 ) 


安全 设置 类 ， 如 


| 开启 远程 日 志 收 集 
日 志 收 集 服 务 嚣 ( 仪 对 外 网 服务 器 )” 116 和 ey 


EmO 38514 
MEE 关闭 远程 日 志 收 集 
| 系统 用 户 信息 初始 化 
[| 系统 启动 信息 初始 化 


执行 操作 启动 ~ 
7] 对 瀑 作 系统 和 系统 软件 进行 打 补 丁 操作 四 
7] 强制 打 补 本 
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由 请 元 vex 


u— (Rom oou 
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O| Is 服务 器 启动 /停止 
HUTE 启动 - 
起 和 个 Serw-U 
HEE Ea 
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EIFE 隐藏 [1S500 错 误 信息 
Fi 家 四 serv- u 认 证 组 忻 
servu 的 安装 目录 
中 | windowst/LSE ez eut 
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| | 更 新 octopod-agent 
Windows : HERRER ($^) 5 


图 20-10 ”其 他 操作 类 操作 


最 佳 实践 100: 自动 化 监控 技术 


在 端 游 架构 中 ， 我 们 构建 的 全 方位 监控 体系 如 图 20-11 所 示 。 


性 能 监控 
* 网 络 设备 和 流量 监控 id: adde 


。IDC 网 络 质量 监控 
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。 游 戏 服务 器 健康 检查 和 | 
。IDC 机 房 连通 性 监控 


机 房 、 链 路 


图 20-11 全 方位 监控 体系 


盛大 游戏 业务 运 维 监控 体系 的 监控 范围 包括 以 下 几 方 面 。 


“ 游戏 在 线 人 数 监控 。 在 线 人 数 监控 系统 ， 接 入 了 每 款 端 游 按 照 分 区 分 组 的 实时 同时 在 线 人 数 数据 (每 分 钟 更 新 一 次 ) 。 这 个 是 业务 监控 的 最 高 水 平 ， 因 为 任何 其 他 故障 (例如 网 络 问题 、 容 户 端 更 新 
异常 等 ) ， 必 然 会 反馈 到 在 线 人 数 上 来 。 关 注 这 个 数据 的 变化 ， 可 以 反馈 其 他 层次 的 故障 情况 。 

“ 游戏 客户 端 质量 监控 。 通 过 在 大 量 的 游戏 客户 端 中 植 入 网 络 质 量 监控 插件 (通过 ping 等 获取 rtt) ， 定 期 上 报 客户 端 到 游戏 服务 器 端的 网 络 质量 情况 ， 进 行 大 数据 分 析 。 可 以 实时 获取 到 玩家 网 络 的 访问 
情况 ， 快 速 定位 区 域 性 或 者 大 规模 系统 性 网 络 故障 。 

“ 游戏 服务 器 端 程序 监控 。 端 游 C、C++ 等 游戏 服务 器 端 程序 ， 监 控 从 3 个 维度 进行 : 进程 监控 (本 地 检查 ) 、TCP 端 口 检 查 (远程 探测 ) 、 机 器 人 检查 (模拟 用 户 ) 。 监 控 的 目的 是 验证 游戏 程序 的 可 
用 性 。 

“ 系统 日 志 的 收集 和 分 析 。 系 统 日 志 包 括 安全 日 志 (/var/log/secure) 、 通 用 日 志 (/var/log/messages) ， 通 过 监控 日 志 中 的 关键 词 输出 报警 。 


“ 游戏 服务 器 健康 检查 和 性 能 监控 。 健 康 检查 ， 是 指 对 服务 器 做 存活 性 检查 。 通 过 在 游戏 服务 器 上 部 署 自主 研发 的 HIDS 插 件 定期 主动 上 报 心跳 信息 。 在 规定 时 间 内 无 上 报信 息 时 判定 服务 器 异常 ， 从 而 
进行 报警 。 性 能 监控 ， 是 指 把 服务 器 最 重要 的 硬件 使 用 率 (网卡 、 带 宽 、 磁 盘 使 用 率 、IOPS、CPU 使 用 率 、Load Average、 内 存 使 用 率 ) 上 报 以 进行 数据 收集 ， 作 为 事 中 报警 和 事后 分 析 的 重要 依据 。 


“ 网 络 设备 和 流量 监控 。 在 机 房 网 络 环境 中 ， 一 般 会 部 署 多 种 异 构 的 网 络 设备 ， 如 思科 交换 机 、 华 三 交换 机 、Juniper 防 火 墙 等 ， 通 过 SNMP 对 这 些 网 络 设备 进行 监控 ， 可 以 以 统一 的 方式 获取 性 能 数据 和 
可 用 性 数据 。 

“ IDC 网 络 质量 监控 。IDC 网 络 质 量 监 控 ， 体现 了 全 国 到 机 房 的 网 络 延 时 的 情况 。 

“ IDC 机 房 连 通 性 监控 。IDC 机 房 连通 性 监控 ， 通 过 IDC 之 间 进 行 连通 性 测试 ， 可 以 获得 主干 网 络 的 连通 性 情况 。 

盛大 游戏 业务 运 维 监控 体系 的 系统 特点 如 下 。 

:从容 户 端 到 服务 器 端的 完整 覆盖 。 

“ 支持 统一 的 监控 策略 配置 和 完整 性 检查 。 

“ 丰富 的 监控 曲线 展示 界面 。 

“ 海量 报警 信息 的 有 效 关联 和 过 滤 。 

“ 与 ITIL 事 件 管理 紧密 结合 ， 报 警 自动 转化 为 应 急 响 应 。 


“应急 响 应 工作 平台 的 事件 单 。 


“ 7X24 小 时 处 理 。 


最 佳 实践 101: 运 维 安全 体系 


在 数 以 万 计 的 游戏 玩家 中 ， 有 正常 的 合法 玩家 ， 也 存在 这 样 一 些 不 老实 的 玩家 。 


: 试图 攻击 游戏 服务 器 ， 让 游戏 服务 器 无 法 工作 ， 以 泄 私 愤 。 


“ 攻击 游戏 登录 、 计 费 等 系统 ， 以 获得 私利 。 


- 利用 游戏 bug， 刷 金币 。 


“ 试图 获取 服务 器 权限 ， 以 谍 取 更 大 利益 。 


这 些 玩家 对 端 游 运 维系 统 造 成 了 重大 的 威胁 ， 因 此 需要 构建 完整 的 运 维 安全 体系 ， 以 最 大 可 能 消除 这 种 威胁 。 


运 维 安全 体系 ， 整 体 架构 图 如 图 20-12 所 示 。 


图 20-12 ”安全 体系 宏观 架构 


完整 的 安全 体系 ， 包 括 网 络 安 全 、 系 统 安全 、 应 用 安全 和 安全 审计 。 以 下 按照 这 4 个 方面 的 内 容 逐 一 展开 。 


网 络 安全 ， 是 保障 攻击 行为 到 达 服 务 器 或 者 网 络 设备 之 前 即 被 终止 的 方案 ， 是 考虑 安全 体系 建设 时 ， 首 先 需要 关注 的 方面 。 


网 络 安全 体系 的 具体 内 容 如 图 20-13 所 示 。 


ARP 攻 击 检测 ”DDOS 攻 击 防御 网 络 访问 控制 ， 网 络 流量 分 析 


ARP 攻 击 监 控 DD0S 攻 击 了 网 络 访问 网 络 流量 
报警 防御 控制 分 析 


。 自 研 开发 每 3 分 - 千 兆 级 抗 DDOS ”防火 墙 实 现 * 基于 Netflow 自 研 
钟 检测 一 次 设备 +ACL 过 滤 开发 

常见 攻击 * 交换 机 ACL 实 现 * 实施 完成 后 通过 

ce 


* 发 现 攻击 及 时 s i. 
上 报 至 应 急 响 旁 路 式 全 局 DDOS 迅速 定位 攻击 


应 平台 流量 清洗 类 型 及 时 响应 


图 20-13 网络 安全 体系 


数据 经 过 网 络 安全 策略 的 过 滤 后 ， 到 达 服 务 器 ， 此 时 需要 通过 系统 进行 安全 防护 。 系 统 安全 体系 的 具体 内 容 如 图 20-14 所 示 。 


补丁 管理 主机 访问 控制 病 素 扫 描 漏洞 跟踪 


* J& T Octopod * TUinx/Linux 采 用 。 统一 的 病毒 库 * 跟踪 国外 安全 
iptables 实 施 升级 策略 机 构 最 新 漏洞 
. 万 台 服 务 器 补丁 控制 
快速 分 发 安装 与 。 统 一 的 全 网 病 ”跟踪 黑客 群体 
检查 。Windows 采 用 扫描 策略 最 新 动向 
ipsec 实 施 控制 
。 统 一 的 事件 上 ”跟踪 最 新 0day 
报应 急 响 应 平 
全 策略 * 及 时 预警 采取 
应 对 方案 


图 20-14 系统 安全 体系 


在 数据 流量 通过 服务 器 系统 后 ， 即 被 操作 系统 向 上 提交 ， 由 服务 器 端 应 用 程序 进行 处 理 。 应 用 安全 体系 的 具体 内 容 如 图 20-15 所 示 。 


安全 审计 的 作用 是 记录 谁 对 什么 系统 在 什么 时 间 做 了 什么 操作 ， 用 于 追溯 黑客 行为 ， 同 时 能 够 通过 审计 发 现 安全 系统 中 的 潜在 漏洞 ， 做 到 提前 防护 。 安 全 审计 体系 的 具体 内 容 如 图 20-16 所 示 。 


应 用 安全 | Web 漏 洞 扫描 i Webshell 监 控 i sacas ses 
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。 发 现 和 消除 网 站 。 自 研 开 发 ， 对 。 定期 对 内 部 系 。 通过 网 站 上 线 
安全 漏洞 公司 网 站 每 小 统 进行 安全 性 前 的 代码 检查 
时 扫描 一 次 测试 机 制 
。 自动 化 工具 定期 。 查找 权限 问题 
扫描 ”统一 的 网 站 检 * SQL 注入 。 及 时 处 理 网 站 
测 策略 。 跨 站 脚本 存在 安全 漏洞 
”检测 报警 上 报 。 及 时 修补 安全 
应 急 响 应 平台 问题 


图 20-15 应 用 安全 体系 


_ 安 全 审计 _ 内 部 用 户 登 录 审计 内 部 用 户 权限 审计 内 部 用 户 操作 行为 审计 


登录 审计 操作 行为 审计 
。 实 现 对 服务 器 登录 。 实现 对 用 户 访问 服 。 实现 对 Windows: 图 形 
日 志 的 审计 务 器 权限 的 审计 环境 屏幕 录像 审计 
。 实现 对 Octopod 操 作 日 志 
。 实现 内 部 应 用 系统 。 实现 对 用 户 访问 内 的 审计 
登录 日 志 的 审计 部 应 用 系统 的 审计 。 实现 内 部 应 用 系统 操作 
. 审计 登录 中 存在 的 审计 出 不 合理 的 权限 ARRA 
异常 的 行为 。 消除 安全 隐患 . Sa 


图 20-16 ”安全 审计 体系 


最 佳 实践 102: 运 维 服务 管理 体系 


运 维 服务 管理 体系 ， 以 服务 为 导向 ， 在 技术 进步 的 基础 上 ， 通 过 人 员 优化 ， 利 用 规范 化 流程 来 提升 服务 品质 。 运 维 的 核心 是 提高 服务 能 力 ， 对 端 游 来 阅 ， 最 终 的 目标 是 为 游戏 运营 提供 稳定 高 效 的 平 
台 。 服 务 与 人 员 、 技 术 、 流 程 之 间 的 关系 如 图 20-17 所 示 。 


在 实践 中 ， 监 控 系 统 是 服务 管理 体系 的 输入 ， 同 时 对 事件 管理 、 问 题 管理 、 变 更 管理 进行 有 效 整 合 规范 ， 以 形成 高 效 的 服务 管理 体系 。 各 个 组 成 部 分 的 流程 图 如 图 20-18 所 示 。 


调整 组 织 结构 ， 以 适应 业务 和 流程 的 
需求 ， 并 实现 量化 考核 
以 服务 导向 取代 技术 
通过 合适 的 技术 ， 轩 化 流程 ， 以 及 
提升 月 动 化 程度 参考 业界 最 佳 实践 ， 
建设 规范 化 流程 


图 20-17 运 维 服务 管理 体系 组 成 图 


IT 服务 管理 体系 


设备 管理 平台 / 
配置 管理 数据 库 


图 20-18 和 运 维 服务 管理 体系 流程 图 


最 佳 实践 103: 运 维 体系 框架 建设 


一 个 完整 的 运 维 体系 框架 如 图 20-19 所 示 。 


在 以 上 的 框架 中 ， 基 础 设施 是 硬件 、 软 件 资源 ， 是 最 底层 的 支撑 。 这 些 基础 设施 的 相关 数据 进入 配置 管理 数据 库 (CMDB) ， 对 运 维系 统 提供 信息 来 源 。 运 维系 统 为 服务 管理 提供 支持 ， 通 过 服务 管理 
对 运 维 系统 进行 规范 化 调用 。 最 终 展示 给 用 户 的 是 服务 平台 ， 是 用 户 服务 入 口 。 


服务 展示 技术 保障 服务 平台 


服务 管理 事件 处 理 配置 管理 em 


自动 化 监控 


wp 


- 3b dr HB R H Xy 


it 


配置 管理 数据 库 


图 20-19 ”和 运 维 体系 框架 


。 后 续 的 最 佳 实践 ， 从 技术 到 管理 再 到 体系 框架 ， 
探 


图 


本 章 小 结 
大 型 网 络 端 游 ， 服 务 器 架构 复杂 ， 服 务 器 数量 大 ， 涉 及 技术 面 较 多 。 本 章 对 大 型 端 游 的 架构 进行 了 剖析 ， 使 得 读者 对 端 游 的 技术 组 成 有 了 明确 的 宏 


逐 层 递 进 ， 层 层 演进 ， 为 端 游 运 维 指出 了 工作 方向 和 目标 。 和 希望 通过 本 章 的 讲解 ， 读 者 能 够 掌握 端 游 运 维 的 各 项 核心 技术 ， 并 且 能 够 构建 一 整套 高 效 的 端 游 运 维系 统 。 下 一 章 ， 将 对 手 游 运 维 进行 详细 


讨 。 
2015 年 第 一 季度 ， 中 国 网 络 游戏 市 场 规模 达到 320.8 亿 ， 环 比 增长 8.0%， 同 比 增长 24.7%。 其 中 移动 游戏 占 比 31.0%。 手 游 的 兴起 ， 给 传统 的 端 游 运 维 工程 师 的 技术 能 力 和 运 维 理念 带 来 了 巨大 的 挑战 ， 因 


au " MENT 
第 21 章 “精通 手 游 运 维 的 架构 体系 
为 手 游 在 技术 架构 、 运 维 体系 方面 存在 众多 特殊 的 要 求 。 本 章 主 要 闸 述 手 游 的 架构 、 容 量规 划 等 方面 的 最 佳 实践 。 

在 手 游 运 维 领域 ， 我 们 把 经 常会 听 到 的 一 些 专用 名 词 进行 简单 说 明 。 
手 游 开 发 商 : 也 叫 CP， 即 Content Provider， 内 容 提 供 商 的 英文 首 字母 缩写 。 顾 名 思 义 ， 就 是 指 制作 手 游 产 品 的 研发 公司 或 者 团队 。 例 如 研发 《 刀 塔 传奇 》 的 莉莉 丝 团队 等 。 


“ 手 游 发 行商 (运营 商 ) : 即 代理 手 游 CP 开 发 出 来 的 手 游 产品 ， 在 部 分 渠道 或 者 全 渠道 发 行 CP 手 游 产 品 的 公司 。 一 般 由 手 游 发 行商 进行 手 游 运 维 工作 的 实施 。 例 如 盛大 游戏 、 龙 图 游戏 等 。 
手 游 渠道 : 拥有 手机 端 手 游 和 APP 用 户 ， 能 够 进行 手 游 和 APP 流 量 分 发 的 公司 ， 即 可 成 为 渠道 。 所 有 可 以 获取 手 游 用 户 的 平台 都 可 以 称 为 渠道 。 例 如 革 果 应 用 商店 、Google 应 用 商店 、 腾 讯 应 用 宝 、 百 


度 手 机 助手 等 


Erf: 
用 户 下 载 安装 游戏 后 ， 打 开 游 戏 ， 但 未 进行 注册 前 ， 记 录 的 终端 数 。 


: 手 游客 户 端 被 下 载 的 次 数 。 
日 活路 登录 数 〈 每 日 登录 用 户 数 DAU) : 用 户 输入 完 身 份 信息 后 ， 进 入 到 游戏 内 的 账户 数 。 同 一 日 多 次 登录 的 同一 个 玩家 计数 为 1。 


激活 数 : 
: 用 户 激活 后 ， 进 行 了 自动 或 者 手动 注册 有 ID 信息 或 者 账户 信息 的 账户 数 。 


注册 数 
日 最 高 在 线 数 : 每 日 每 个 时 刻 ， 同 时 进行 手 游 操作 的 玩家 数量 的 最 高 值 。 
下 载 数 、 激 活 数 、 注 册 数 是 预 估 手 游 公测 首 日 可 能 带 来 的 用 户 导 入 量 的 最 重要 评估 依据 


日 活跃 登录 数 ， 特 别 是 公测 首 日 的 活跃 登录 数 ， 是 评估 手 游 发 行 效果 的 重要 数据 。 


日 最 高 在 线 数 的 承载 能 力 是 进行 容量 规划 时 需要 满足 的 服务 能 力 。 


在 给 出 推荐 的 手 游 架 构 之 前 ， 需 要 深入 了 解 手 游 运 维和 端 游 运 维 的 异同 点 ， 以 此 分 析 为 基础 ， 推 导出 合理 的 手 游 架 构 。 


最 佳 实践 104: 推荐 的 手 游 架 构 
- 手 游 运 维和 端 游 运 维 ， 都 需要 对 底层 操作 系统 有 较 深 的 理解 。 区 别 是 手 游 运 维 中 使 用 Linux 等 开源 操作 系统 的 较 普遍 ; 端 游 运 维 根据 不 同 的 开发 商 可 能 Microsoft Windows 和 Linux 都 占有 一 定 的 比例 。 
“ 手 游 开放 公测 时 ， 一 般 不 使 用 分 区 的 方式 ， 即 所 有 玩家 直接 在 一 个 大 区 里 面 进 行 游戏 ; 而 端 游 往往 采用 分 区 制 ， 各 个 分 区 的 玩家 之 间 无 数据 交互 。 手 游 不 分 区 的 运营 方式 ， 使 得 服务 器 压力 集中 ， 对 


手 游 和 端 游 运 维 的 异同 点 
手 游 运 维和 端 游 运 维 相 比 ， 有 以 下 共同 点 和 
于 运 维 要 求 更 高 。 例 如 ， 如 何 解决 数据 库 的 集中 压力 问题 及 游戏 服务 器 的 压力 分 担 问题 等 ， 都 是 运 维 人 员 需 要 考虑 的 。 


区 别 。 
“ 在 客户 端 和 服务 器 端 通信 方式 上 ， 端 游 要求 客 户 端 强 联网 ， 一 般 使 用 在 TCP 协 议 之 上 实现 私有 协议 。 这 样 的 好 处 是 可 以 实现 长 连接 和 提高 交互 性 ; 手 游 一 般 采 用 弱 联网 方式 ， 使 用 HTTP 协 议 进行 通 


sy 


手 游 生命 周期 较 短 ， 玩 家 涌 入 的 时 间 比 较 集中 。 因 此 在 架构 设计 时 ， 需 要 充分 考虑 横向 扩展 的 需求 。 
了 HTTP 协 议 。 


目前 的 大 部 分 手 游 在 设计 客户 端 和 服务 器 端 通信 模型 时 ， 采 
HTTP 协 议 是 成 熟 的 应 用 层 协议 ， 有 丰富 的 客户 端 和 服务 器 库 函 数 加 以 复 用 ， 相 对 于 完全 自主 开发 基于 TCP 的 通信 协议 ， 开 发 效率 更 高 ， 可 能 遇 到 的 bug 更 少 。 


使 用 HTTP 协 议 的 优点 
HTTP 协 议 的 通信 方式 ， 有 以 下 优点 
使 用 HTTP 协 议 更 容易 利用 到 现 有 成 熟 的 周边 基础 设施 ， 例 如 通用 的 负载 均衡 软件 或 者 硬件 等 。 
易于 实现 压缩 。HTTP 协 议 本 身 支持 应 用 程序 以 外 的 由 Web 服 务 器 提供 的 压缩 功能 ， 减 少 客户 端 和 服务 器 端的 数据 传输 量 。 


使 


利用 HTTP 的 Session 和 Cookie 机 制 ， 易 于 实现 会 话 保持 机 制 。 
易于 实现 加 密 。 在 HTTP 层 之 上 ， 直 接 使 用 SSL 协 议 (HTTPS) 即 可 实现 关键 信息 的 加 密 传输 。 


推荐 的 网 络 架构 


基于 以 上 分 析 ， 结 合 我 们 在 运 维 大 型 手 游 过 程 中 的 实践 经 验 ， 我 们 给 出 了 推荐 实施 的 网 络 手 游 架构 ， 如 图 21-1 所 示 。 
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在 设计 这 样 的 手 游 架构 时 ， 重 点 考虑 的 几 个 方面 有 以 下 几 个 。 


负载 均衡 器 使 用 商业 硬件 实现 。 采 用 商业 硬件 的 负载 均衡 可 以 最 大 化 保障 业务 稳定 
负载 均衡 器 使 用 双 机 热 备 (HA) ， 规 避 单 点 故障 。 
“ 负载 均衡 器 和 核心 交换 机 使 用 双 上 联 ， 避 免 单一 核心 交换 机 故障 导致 的 网 络 中 断 。 


“ 负载 均衡 器 使 用 NAT 模 式 。 在 手 游 架 构 中 ， 实 际 负责 游戏 远 辑 的 Web 服 务 器 组 和 玩家 之 间 的 数据 流量 ， 一 般 不 大 。 根 据 我 们 的 经 验 ， 在 5 万 人 同时 在 线 的 手 游 ， 带 宽 使 用 800Mbs 左 右 。 使 用 NAT 模 式 的 
负载 均衡 方案 完全 可 以 满足 需求 ; 同时 对 于 Web 服 务 器 来 说 ， 不 需要 配置 外 网 P， 节 省 IP 费 用 及 提高 安全 性 。 


“ 接 入 层 交 换 机 接 入 核心 交换 机 时 ， 采 用 双 上 联 ， 并 且 做 PortChannel， 保 障 双 链 路 可 用 的 情况 下 ， 同 时 提高 吞吐 量 。 
“Web 服务 器 组 ， 配 置 高 频 CPU。 作 为 手 游 运 辑 的 主要 处 理 单元 ，Web 服 务 器 往往 执行 大 量 的 CPU 运 算 ， 比 如 玩家 攻击 能 力 计算 、 攻 击 效 果 计 算 等 。 
* Memcached 服 务 器 组 的 作用 一 般 包括 预 加 载 配置 项 以 及 缓存 数据 库 查询 结果 等 。 使 用 Memcached 提 供 的 高 效 内 存 缓存 ， 可 以 提高 响应 速度 。 


< 数据 库 服 务 器 组 为 游戏 数据 提供 持久 存储 。 


在 这 样 的 架构 设计 中 ， 体 现 手 游 运 维 对 于 高 可 用 性 、 安 全 性 、 高 性 能 的 要 求 。 在 运 维 人 员 设 计 相 关 规 划 时 ， 可 以 参考 该 架构 进行 实施 。 


最 佳 实践 105: 手 游 容量 规划 


手 游 相 对 于 端 游 的 生命 周期 更 短 ， 留 给 运 维 人 员 的 准备 时 间 也 就 更 少 。 这 就 要 求 我 们 在 短 时 间 内 对 手 游 运 营 需 要 的 各 种 资源 规划 到 位 ， 手 游 容量 规划 是 必 不 可 少 的 一 个 环节 。 


容量 规划 (Capacity Planning) ， 是 指 在 系统 上 线 前 ， 或 者 系统 运营 过 程 中 ， 通 过 分 析 业 务 走向 ， 对 系统 需要 的 各 种 网 络 、 计 算 、 存 储 资 源 进行 提前 规划 和 准备 ， 以 灵活 地 应 对 这 种 业务 变化 带 来 的 系 
统 承 载 能 力 要 求 的 变化 。 


机 房 选择 


移动 固 网 接 入 ) 等 终端 网 络 切换 时 得 到 良好 的 游戏 体验 ， 手 游 服 务 器 需要 部 署 在 多 线 机 房 ， 由 此 可 以 很 好 地 满足 用 户 多 种 方式 上 网 的 


为 了 用 户 在 3G、4G、WIFI (中 国电 信 接 入 、 中 国联 通 接 入 、 中 


H 


图 21-2 所 示 是 我 们 某 个 手 游玩 家 1SP 来 源 的 分 布 情况 。 


图 21-2 也 验证 了 我 们 必须 把 服务 器 部 署 在 多 线 机 房 ， 以 满足 不 同 接 入 的 手 游玩 家 。 
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21-2” 手 游玩 家 ISP 分 布 


多 线 机 房 的 实现 原理 和 特点 如 下 。 

- 数据 中 心 为 适应 不 同 用 户 对 不 同 网 络 访问 量 的 不 同 需求 ， 采 用 多 条 高 带宽 (例如 40G) 光纤 链 路 连接 到 Internet。 

: 连接 到 中 国电 信 、 中 国联 通 的 出 口 带宽 均 超过 10G 以 上 。 

“ 各 条 链 路 均 采 用 BGP4 收 取 路 由 ， 并 进行 相应 的 策略 设置 ， 保 证 用 户 访问 不 同 网 络 的 访问 速度 。 

“ 各 条 出 口 互 为 备份 。 在 其 中 一 条 链 路 出 现 故障 的 时 候 ， 所 有 流量 通过 其 他 链 路 出 入 ， 不 会 出 现 单 链 路 故障 ， 提 高 了 可 靠 性 。 
< 突破 了 ISP 出 口 受 中 国电 信和 中 国联 通 互 连 带宽 瓶颈 及 访问 国际 网 站 的 限制 。 


“ 高 速 Intermnet 接 入 、 宛 余 的 网 络 和 带宽 管理 系统 保证 接 入 带宽 可 根据 用 户 流量 的 需求 随时 扩充 ， 充 分 满足 用 户 日 益 增 长 的 网 络 应 用 需求 。 


在 选择 和 对 比 多 个 多 线 机 房 时 ， 机 房 的 匈 余 带宽 、 对 抗 DDOS 攻 击 的 能 力 ， 是 评估 的 2 个 最 重要 方面 。 高 元 余 带 宽 (10G 以 上 ) 、 高 抗 DDOS 能 力 (20G 以 上 ) ， 是 我 们 倾向 的 选择 。 


网 络 带 宽容 量规 划 


网 络 带宽 规划 的 数据 来 源 主 要 包括 2 个 方面 ， 一 个 是 在 小 规模 测试 时 收集 到 的 玩家 平均 带宽 使 用 量 ， 以 kbps/ 每 玩家 计算 。 另 一 个 是 使 用 机 器 人 ( 指 能 够 模拟 玩家 进行 游戏 内 容 测试 的 自动 化 程序 ) 测试 
时 收集 到 的 类 似 数据 。 


在 进行 网 络 带宽 规划 时 ， 需 要 对 以 下 3 个 方面 的 内 容 分 别 进行 评估 。 

“ 正常 流量 规划 。 评 估 方 法 是 根据 玩家 在 正常 进行 游戏 时 ， 每 玩家 带宽 使 用 量 与 预 估 的 同时 在 线 人 数 的 乘积 。 

“ 手 游客 户 端 更 新 容量 规划 。 评 估 方 法 是 根据 手 游客 户 端的 更 新 内 容 大 小 乘 以 预 估 的 公测 当日 导入 的 手 游玩 家 数量 。 手 游客 户 端 更 新 通过 接 入 外 部 CDN 可 以 适当 分 担 流量 压力 。 

“ 异常 流量 规划 。 这 个 主要 是 指 在 手 游 运 维 中 ， 受 到 大 规模 DDOS 攻 击 时 的 处 理 规划 。 在 进行 这 种 容量 规划 时 ， 需 要 充分 考虑 到 机 房 运营 商 接 入 的 带宽 ， 采 用 分 级 规划 。 在 第 一 级 小 规模 DDOS 时 (小 于 
5G) ， 启 用 自 有 的 流量 清洗 设备 。 在 更 大 规模 的 DDOS 时 ， 启 用 运营 商 级 别 的 保护 ， 以 降级 服务 的 方式 ， 阻 止 来 自 某 一 方向 的 攻击 流量 (该 方向 的 正常 访问 也 会 受到 影响 ) 。 


Web 服 务 器 承载 能 力 规划 


在 规划 Web 服 务 器 承载 能 力 前 ， 需 要 分 析 目 前 的 计算 瓶颈 。 

以 PHP FPM 类 型 的 Web 应 用 程序 为 例 ， 有 以 下 2 个 参数 务必 需要 设置 。 

“slowlog/var/log/php-fpm-slow.log。 用 于 指定 PHP 执 行 时 慢 日 志 的 记录 位 置 。PHP 慢 日 志 ， 用 于 定位 PHP 程 序 执行 慢 的 原因 ， 是 最 重要 的 日 志 。 
- request_slowlog timeout 1s。 用 于 指定 对 于 执行 时 间 超 过 1s 的 PHP 肢 本， 记录 程序 执行 调用 情况 (backtrace) 到 slowlog 指 定 的 位 置 。 


在 Java 程 序 中 ， 可 以 使 用 Log4j 在 关键 调用 处 记录 相应 的 执行 时 间 ， 如 对 外 部 API 请 求 、 对 数据 库 调 用 、 对 缓存 服务 器 调用 、 排 名 计算 等 。 通 过 这 些 数据 ， 能 够 获取 到 可 能 影响 系统 性 能 的 关键 信息 ， 在 
有 针对 性 的 解决 后 ， 再 进行 相应 的 容量 规划 。 


Web 服 务 器 负责 对 手 游 业 务 逻 辑 的 处 理 ， 对 CPU 要 求 较 高 。 因 有 负载 均衡 设备 调度 ， 单 台 服 务 器 对 可 靠 性 要 求 不 高 。 如 果 服 务 器 宕 机 ， 由 于 调度 系统 的 存在 ， 系 统 会 自动 把 请 求 切换 到 其 他 服务 器 上 ， 
给 玩家 造成 的 影响 较 小 ， 这 点 就 和 端 游 不 一 样 〈 端 游 上 玩家 会 掉 线 ) 。 对 单 服 务 器 要 求 较 低 ， 服 务 器 选 型 上 可 有 更 多 的 选择 ， 比 如 说 采用 一 些 多 节点 服务 器 。 在 压力 测试 时 ， 首 先 在 负载 均衡 器 上 设置 流量 
只 分 配给 一 台 服 务 器 ， 然 后 评估 它 的 压力 情况 。 以 此 数据 作为 支撑 ， 可 以 计算 出 总 计 需 要 的 Web 服 务 器 数量 为 预计 最 大 同时 在 线 玩家 数 除 以 单 台 承 载 能 力 。 


Memcached 承 载 能 力 规划 


Memcached 服 务 器 组 为 Web 服 务 器 组 提供 缓存 服务 ， 同 时 减 既 了 数据 库 的 查询 压力 。Memcached 是 基于 内 存 的 key-value 弄 缓存， 无 磁盘 IO 读 写 ， 效 率 非常 高 。 在 对 Memcachedj 进 行 容量 规划 时 ， 
需要 关注 的 是 热点 缓存 数据 的 分 布 情况 


热点 缓存 数据 ， 是 指 Web 服 务 器 程序 请 求 次 数 最 多 、 产 生 最 大 网 络 流量 的 缓存 数据 。 如 果 热 点 数据 比较 分 散 ， 可 以 部 署 多 台 Memcached 同 时 使 用 客户 端 对 key 哈 希 的 方法 (如 一 致 性 哈 希 算法 ) 进行 
压力 分 担 。 我 们 遇 到 过 一 个 极端 情况 是 ， 热 点 缓存 数据 集中 在 某 个 Key 上。 此 时 ， 使 用 客户 端 哈 希 是 没有 效果 的 (因为 一 个 key 只 能 分 布 在 一 台 服 务 器 上 ) ， 达 不 到 压力 分 担 的 效果 。 


如 图 21-3 所 示 ， 其 中 一 台 在 线 Memcached 的 带宽 使 用 已 达到 瓶颈 。 
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21-3. 单 台 Memached 带 宽 使 用 量 


单一 热点 数据 产生 大 量 带宽 需求 的 情况 下 ， 可 以 使 用 的 方案 是 对 缓存 服务 器 进行 网 络 端口 Bonding。 关 于 使 用 Bonding 方 法 提高 带宽 吞吐 量 的 方法 ， 请 参阅 “第 3 章 概述 负载 均衡 和 高 可 用 技术 ”。 


对 Memcached 热 点 数据 的 分 析 ， 推 荐 使 用 memkeys 工 具 (https://github.com/bmatheny/memkeys) 。memkeys 是 tumblr 开 源 的 类 似 top 的 工具 ， 可 用 于 实时 查看 memcached 的 key 使 用 情况 。 


memkeys 的 安装 命令 如 下 : 


wget http://ftp.gnu.org/gnu/autoconf/autoconf-latest.tar.gz # 下 载 autoconf 
tar zxvf autoconf-latest.tar.gz 

cd autoconf-2.69/ 

./configure 

make 

make install 

yum -y install gcc-c++ pcre-devel libpcap-devel # 安 装 依赖 库 

git clone https://github.com/tumblr/memkeys.git # 下 载 memkeys 源 代码 
cd memkeys 

export CXX=g++44 

./autogen.sh 

./configure 

make 

make install 


memkeys 的 使 用 方法 如 下 : 


/usr/local/bin/memkeys -i eth0 -r 10 #-i 指 定 网 络 端口 ，-r 指 定 输出 的 刷新 频率 


由 此 ， 我 们 可 以 按照 单位 时 间 内 请 求 次 数 、 带 宽 使 用 率 来 排序 分 析出 热点 数据 。 如 图 21-4 所 示 ，memkeys 的 输出 格式 为 : 


memcache key calls &)bjsize @req/sec Qbv (kbps) 
gPXMsd1WoGaPKRWTZ174uMu0JMGh5azerWsjztEo2gDMzj kOkrSXDEnZSvG6QT54K. . . 21 400 19 
IKHPD7dMq4yB60FlaXHHkOTmZ vhew58CPHdXPEtFJ j IH7ZuZwBrZRKJs8sWAxXHFo. .. 400 
uq7EBRIEO9fYdDgmFgZJ4wiStLizP13BkAPkWjzmlWBMj jOrNP2SLko7xMyM01a0... 400 
HL9Aj eEEsnd30AvTfpjprhPDodyFIxNSAYWt2kOvXTynfl8BQssHP9NDnDKxAjPD... 400 
33AE1zgCJz5alCe5kxqEop7flWtjiA1d53j62NBDF8n8DIDpF33vs3bWZKD7W6kb. . . 400 
hacB8p6qjuliG2341Kr3QLxb2NE3ZKeEm6HmvGTXAEDJ89FAT65vR2MMPdHqpv4b. . . 400 
3sEivfHwvhyeaJIdmJebXlnOp5utsqdnarTLNmHIJ8otRGNDHihhnKZSPRLHHrwj... 400 
ujGIc8lA2CGyY1xtASOO0GrCP6PgnndOhCgsogdz jh7258NzIjNBz6FGChxrKQFte... 408 
|SCz1NLQWa5T4buMhLu4PADSILpezaBBcN2dfG41qlWucGHIeBMv7RGPh53gY6r8M... 400 
RidweOTp9w5FbQwZS;jedl7c31CrdtEuKoXHROm8Za5pAYdj sCDTpCxsD9cj3idNw... 400 
SZEOXBcbnOiMcLLTnzgYM0o28261CKpZlvZ28y1jdlHzdWCzICfqafWcnPahdnW2Y... 400 
vNMTDw739920JiLeO0Flo6dG0oC5vWyaPDxmQltMuunIDLXkmnTal6idvuiiGgGau... 400 
r71p2Mwv7SlkEuyMOdOCighf9mqkGGc8NWxIsmDrEyRKtQi9vjDWFmlGYsOpOcpN... 
jac6x3GCbJl68bHizLkJ4jh5BMPGP298kd6hgNu8af6i60GglOrhbYeem3vBxwBi... 
sgwW2YOYefwhNdPGksKNc ynv02d3Q2KAi8hlgx9Ad5ssa99A2TPWJAHK6vNOpbbX. . . 
IS3LtZWFi6cJOdNNEYOCPxwOeKsQvS7Eo3Shc yxBA4PWA42mKHAKTCAPSolL6YhDfTB... 
vMfPLgY9n7bpXjZKyNYbDjbBJzbQeYfPulqgFrEGeDkKlJlx98LlL5CZOB8ihgE6Q... 
kqfSA2eux7zy5p0wj2J98xAY5kXOCyTpp8Hr3vmOvdqsIqgottz3tw5PuhpmlnFac... 

4 rbgQGckqoHW2zGHdNvlDoik4xOdO5LxwwdN45zml8Gn70xdokMtYwdcluDlzaan... 
vRIiDhkbrHmj7Ri4srPoQJlwmSm3DFbO0atjnaREPcOlkRboBRDrlOSiAwS61bZ229... 

u8Wp5AkvxZNObMJDu j 21032fWpeApfejnOPkA1XzamGASbFvASwQDyxj fR1S7NAm. . 
AhMvzzy45sY1AKXfxkpXDdLuzKoDAT9KbNFIND5T5eH7EueBeKblooveXGJcTdee51tyGz3mvh4wuizp2a9shnFwyro5LOPFCNXB 
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21-4 memkeys 输 出 内 容 示例 


在 图 21-4 中 ， 

人 @ 列 所 示 是 当前 Memcached 响 应 的 key。 

食 列 所 示 是 当前 每 个 key 统 计时 间 内 的 总 请 求 次 数 。 
会 列 所 示 是 当前 每 个 key 的 字 节 数 。 


人 @ 列 所 示 是 当前 每 个 key 的 每 秒 请 求 数 。 


仗 列 所 示 是 当前 每 个 key 的 带宽 占用 。 


@ 所 示 ， 可 以 按照 带宽 、 总 请 求 次 数 、 每 秒 请 求 次 数 来 分 别 排序 。 


通过 对 当前 Memcached 的 请 求情 况 分 析 ， 可 以 有 效 地 判断 热点 数据 的 分 散 是 否 均衡 。 


另外 一 个 需要 注意 的 事项 是 Memcached 的 启动 参数 ， 默 认 情 况 下 ， 它 支持 的 并 发 连接 数 是 1024， 如 下 所 示 : 


memcached -h 
-c «num» max simultaneous connections (default: 1024) 


在 上 线 前 ， 务 必要 提高 该 值 。 在 我 们 的 实践 中 ， 曾 经 发 生 过 因为 前 端 服务 器 过 于 繁忙 导致 连接 数 用 光 的 情况 。Memcached 当 前 的 连接 数 情况 ， 使 用 如 下 命令 获取 : 


[rootémaster ~]# telnet 127.0.0.1 11211 

Trying 127.0.0.1http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15829/OEBPS/Text/... 
Connected to 127.0.0.1. 

Escape character is '^]'. 

stats 

STAT pid 23341 

STAT curr connections 2000 # 当 前 连接 数 


数据 库 承 载 能 力 规划 


数据 库存 储 了 手 游 中 的 持久 化 数据 ， 提 高 数据 库 的 响应 效率 对 提高 手 游 体验 起 到 关键 作用 。 进 行 数据 库容 量规 划 时 ， 需 要 严格 按照 以 下 规则 进行 。 


“ 数据 库 配 置 参 数 、 表 结构 和 SQL 语句 评估 


进行 数据 库 评估 的 目的 是 分 析 数 据 库 软件 配置 参数 与 硬件 能 力 是 否 匹配 、 分 析 表 设计 与 SQL 语句 的 效率 关系 。 


以 MySQL 为 例 ， 在 数据 库 配 置 参数 方面 ， 主 要 考虑 增加 innodb_buffer_pool size 为 系统 可 用 内 存 的 60%。 分 析 数 据 库 表 结 构 设计 时 ， 对 主键 、 索 引 是 否 完整 、 有 宛 余 、 表 引 警 的 一 致 性 、 字 段 类 型 的 
高 效 性 进行 分 析 。SQL 语 名 评估 时 ， 考 虑 对 多 表 联合 查询 、limit、 复 杂 查询 语句 进行 优化 。 在 无 法 直接 进行 SQL 语句 优化 的 条 件 下 ， 可 以 考虑 通过 业务 逻辑 的 调整 来 减 小 数据 库 压 力 (这 一 步 可 能 涉及 游戏 
策划 、 产 品 经 理 的 沟通 ， 一 般 比 较 难 ) 。 


“ 数据 库 分 库 分 表 设计 。 对 于 访问 频繁 的 数据 量 巨 大 的 表 ， 如 用 户 注册 表 ， 必 须 采用 拆 分 的 方法 ， 使 其 分 布 在 不 同 的 数据 库 服务 器 上 。 对 于 log 库 ， 由 于 其 对 于 游戏 来 说 ， 是 非 核心 数据 ， 也 需要 单独 拆 
分 ， 以 缓解 核心 数据 库 的 压力 。 


“ 使 用 数据 库 读 写 分 离 技 术 。 数 据 库 读 写 分 离 技 术 ， 在 数据 库 分 库 分 表 的 基础 上 ， 又 进行 了 一 层 压 力 分 解 。 在 MySQL 中 ， 通 过 配置 主 从 复制 (Replication) 可 以 获得 以 下 的 好 处 : 
“ 在 从 库 上 进行 读 取 操作 ， 可 以 进一步 减少 主 库 的 读 压 力 。 

“ 在 专用 的 从 库 上 进行 数据 备份 时 ， 不 影响 在 线 业 务 。 

“ 在 专用 的 从 库 上 进行 数据 分 析 和 挖掘 时 ， 不 影响 在 线 业务 。 


“ 使 用 SSD 提 高 随机 读 写 iops。 手 游 的 大 区 制 ， 使 得 数据 库 的 压力 被 集中 起 来 ， 同 时 不 同等 级 的 玩家 所 具有 的 不 同 的 游戏 行为 也 加 剧 了 对 数据 库 的 压力 。 使 用 SSD 可 以 最 大 限度 地 提高 服务 器 的 iops， 以 
应 对 这 种 读 写 压力 。 


“ 存储 容量 规划 。 在 数据 库 中 ， 一 般 会 记录 较 长 时 间 的 玩家 游戏 日 志 ， 这 一 部 分 数据 随 着 运营 时 间 的 增加 ， 对 存储 容量 要 求 越 来 越 多 。 评 估 方 法 是 根据 内 测 期 间 玩 家 数量 和 日 志 数 据 量 计算 出 每 日 每 玩 
家 大 概 产 生 的 数据 量 。 所 需要 的 存储 容量 为 每 日 每 玩家 大 概 产生 的 数据 量 乘 以 保留 天 数 再 乘 以 每 日 预 估 玩家 数量 。 


官网 论坛 访问 能 力 规划 


在 手 游 运 维 时 ， 除 了 考虑 到 手 游 系统 之 外 ， 还 应 该 考虑 官网 、 论 坛 等 的 访问 能 力 。 


在 游戏 维护 期 间 ， 玩 家 往往 会 转向 到 官网 和 论坛 ， 此 时 会 产生 大 量 的 并 发 请 求 。 官 网 和 论坛 基本 都 是 基于 Web 的 服务 ， 考 虑 容量 规划 时 ， 可 以 参照 本 章 Web 服 务 器 承载 能 力 规划 的 内 容 。 


人 数 曲线 接 入 


人 数 曲线 反映 了 实时 玩家 的 在 线 情况 ， 同 时 也 能 够 反映 游戏 系统 运行 状态 。 


在 设计 人 数 曲 线 接 入 时 ， 使 用 了 基于 Web 请 求 日 志 分 析 的 方式 。 


人 数 曲线 的 接 入 步骤 如 下 。 


1) 在 Web 服 务 器 上 记录 玩家 客户 端的 Cookie 字 符 串 。 
2) 分 析 5min 内 的 Cookie， 去 除 重复 值 后 的 数量 作为 当前 在 线 人 数 。 


3) 统计 数据 写 入 人 数 数 据 库 。 


二 


4) 图 表 展示 。 


本 章 小 结 


手 游 是 近年 来 网 络 游戏 领域 中 和 异军突起 的 一 个 重要 分 支 ， 得 到 越 来 越 多 游戏 公司 的 重视 。 掌 握手 游 运 维 的 关键 技术 ， 是 提高 运 维 人 员 自 身价 值 的 必要 手段 。 本 章 从 架构 方面 给 出 了 推荐 的 设计 思路 ， 希 
望 能 够 帮助 读者 从 宏观 上 把 握手 游 运 维 体系 的 特点 。 手 游 上 线 前 的 容量 规划 是 保障 手 游 系统 不 被 过 载 、 保 障 业 务 稳定 性 的 关键 。 本 章 从 机 房 、 网 络 到 各 种 角色 服务 器 组 的 容量 规划 进行 了 深入 探讨 。 在 进行 
容量 规划 时 遵循 这 些 建 议 ， 可 以 对 系统 承载 能 力 做 到 胸有成竹 、 从 容 不 连 。 


